爬取的网页是:千图网背景图片模块
查看背景图片的网页代码(右键–>【查看元素】/f12 / fn + f12)
url链接【www.58pic.com/newpic/33945157.html】
进入了图片的高清大图页面
我们可以通过爬取最开始打开的页面的源代码进入对应的背景图片的详情页面.
# 使用的utf-8编码
# -*- coding:utf-8 -*-# 导入模块
import requests
from lxml import etree# 设置变量# 主页面的url
main_url = 'https://www.58pic.com/piccate/10-0-0-p1.html'# headers中的User-Agent参数就是告诉服务器我使用的浏览器版本信息,我使用的这个就是告诉服务器,我使用的是火狐浏览器,是一台win10,64位的电脑。
# headers中的Referer参数用于表示我是从哪个网页跳转过去的。headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:66.0) Gecko/20100101 Firefox/66.0','Referer':'https://www.58pic.com/piccate/10-0-0-p1.html',}# 网页下载函数def get_html(url):'''下载网页代码'''html = requests.get(url,headers).textreturn html# 爬取图片详细页urldef get_page_url(data):