怎样用Python3 写一个爬图片的程序?
参考网页:xiaowanggedege的专栏
缘起于一个小伙伴,在网上发帖求助一段代码,
功能是实现从百度贴吧,爬一个叫杉本有美的日本国际友人的图片。
(声明:本人之前确实不认识这个可爱美丽的女孩子)
浏览了参考网页的资料,发现代码是python2的版本,现修改如下:
import urllib.request
import redef get_html(url):page = urllib.request.urlopen(url)html = page.read()return htmldef get_img(html):reg = r'src="(.*?\.jpg)" size='imgre = re.compile(reg)html = html.decode('utf-8')imglist = re.findall(imgre, html)i = 0for imgurl in imglist:urllib.request.urlretrieve(imgurl, '%s.jpg' % i)i += 1html = get_html('http://tieba.baidu.com/p/4907713304')
print(get_img(html))
- urllib2是Python自带的模块,在python3.x中被改为urllib.request
- python3.0 中findall模块现在的参数更改了,现在读取的是bytes-like的,但参数要求是chart-like的,
所以加上一段代码html = html.decode('utf-8')
细心的朋友可以发现,我的代码和参考资料代码里爬的网页不一样,参考资料里的是http://tieba.baidu.com/p/2166231880
查看网页源码会发现细微的不同,
根据二者的不同,修改了此条语句:
reg = r'src="(.*?\.jpg)" size='