学习目标:
Python爬虫
学习内容:
1、 python爬虫简单语句的学习 2、 理解爬虫语句学习产出:
1.库的导入
import requests #导入requests库
import bs4 #导入bs4库
from bs4 import BeautifulSoup #导入BeautifulSoup库
2.返回html内容
r = requests.get(url,timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodinghtml =r.txt
3.分析内容,获取数据
这是最重要的部分,也是最难的,课上学的,不知道为什么,都没法用,就很气,先记一下别人的吧
hlist = []
soup = BeautifulSoup(html,"html.parser")for tr in soup.find(name = "tbody",attrs = "tabItem champion-trend-tier-TOP").children: #遍历上单tbody标签的儿子标签if isinstance(tr,bs4.element.Tag): #判断tr是否为标签类型,去除空行tds = tr('td') #查找tr标签下的td标签heroName = tds[3].find(attrs = "champion-index-table__name").string #英雄名winRate = tds[4].string #胜率pickRate = tds[5].string #选取率hlist.append([heroName,winRate,pickRate])
soup.find( ):
name是标签的名字,attrs是class的名字
.children 是该标签下的儿子标签
tds=tr('td')#到了下一级查找tr标签下的td标签
heroName = tds[3].find(attrs = "champion-index-table__name").string #英雄名
winRate = tds[4].string #胜率
pickRate = tds[5].string #选取率
tds 里边都是td以数组形式存放,又因为英雄名字要特地找一下
总结:
现在还是没有真正坐下来一个爬取,感觉本身爬虫本身不难,难得是对网页和前端的理解~
慢慢来吧~
加油菜鸡