python3.4爬虫demo 2024/11/18 饿虎岗资源网

python 3.4 所写爬虫

仅仅是个demo，以百度图片首页图片为例。能跑出图片上的图片；

使用 eclipse pydev 编写：

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e)

HtmlHelper.py文件

上面的 SpiderSimple是自定义的包名

from urllib.request import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正则爬里面的图片地址  
def getImage(Html):
  try:
    #reg = r'src="/UploadFiles/2021-04-08/(.+">

要注意个大问题，python 默认编码的问题。
有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x"htmlcode">

echo off
set PYTHONIOENCODING=utf8
python -u %1


然后重启电脑。
总结
以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接


            
                 上一篇： python 通过类中一个方法获取另一个方法变量的实例 
                 下一篇： 对Python 获取类的成员变量及临时变量的方法详解 
            
            
                最新资源
                
                     
证声音乐图书馆《真夏派对 x 迪斯可》[FLAC/分轨
 
证声音乐图书馆《星空下 爵士钢琴》[320K/MP3][
 
证声音乐图书馆《星空下 爵士钢琴》[FLAC/分轨]
 
沙门怀一《竹山听雨HQ》头版限量[低速原抓WAV+C
 
沙门怀一《于喁·壹HQ》头版限量编号[低速原抓WA
 
群星《魅音绝唱》黑胶CD【WAV】
 
腾格尔.2002-四十独白【风潮】【WAV+CUE】
 
陈明真.1992-到哪里找那么好的人【华星】【WAV+
 
黄凯芹.2012-廿五年3CD【环球】【WAV+CUE】
 
证声音乐图书馆《七夕 爵士情缘》[320K/MP3][64