分享三个python爬虫案例

embedded/2024/11/15 0:40:51/

一、爬取豆瓣电影排行榜Top250存储到Excel文件


        近年来,Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程序,用于抓取豆瓣电影Top250的相关信息,并将其保存为Excel文件。

获取网页数据的函数,包括以下步骤:
1. 循环10次,依次爬取不同页面的信息;
2. 使用`urllib`获取html页面;
3. 使用`BeautifulSoup`解析页面;
4. 遍历每个div标签,即每一部电影;
5. 对每个电影信息进行匹配,使用正则表达式提取需要的信息并保存到一个列表中;
6. 将每个电影信息的列表保存到总列表中。

        效果展示:


        源代码:

python">from bs4 import BeautifulSoup
import  re  #正则表达式,进行文字匹配
import urllib.request,urllib.error #指定URL,获取网页数据
import xlwt  #进行excel操作def main():baseurl = "https://movie.douban.com/top250?start="datalist= getdata(baseurl)savepath = ".\\豆瓣电影top250.xls"savedata(datalist,savepath)#compile返回的是匹配到的模式对象
findLink = re.compile(r'<a href="(.*?)">')  # 正则表达式模式的匹配,影片详情
findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)  # re.S让换行符包含在字符中,图片信息
findTitle = re.compile(r'<span class="title">(.*)</span>')  # 影片片名
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')  # 找到评分
findJudge = re.compile(r'<span>(\d*)人评价</span>')  # 找到评价人数 #\d表示数字
findInq = re.compile(r'<span class="inq">(.*)</span>')  # 找到概况
findBd = re.compile(r'<p class="">(.*?)</p>', re.S)  # 找到影片的相关内容,如导演,演员等##获取网页数据
def  getdata(baseurl):datalist=[]for i in range(0,10):url = baseurl+str(i*25)     ##豆瓣页面上一共有十页信息,一页爬取完成后继续下一页html = geturl(url)soup = BeautifulSoup(html,"html.parser") #构建了一个BeautifulSoup类型的对象soup,是解析html的for item in soup.find_all("div",class_='item'): ##find_all返回的是一个列表data=[]  #保存HTML中一部电影的所有信息item = str(item) ##需要先转换为字符串findall才能进行搜索link = re.findall(findLink,item)[0]  ##findall返回的是列表,索引只将值赋值data.append(link)imgSrc = re.findall(findImgSrc, item)[0]data.append(imgSrc)titles=re.findall(findTitle,item)  ##有的影片只有一个中文名,有的有中文和英文if(len(titles)==2):onetitle = titles[0]data.append(onetitle)twotitle = titles[1].replace("/","")#去掉无关的符号data.append(twotitle)else:data.append(titles)data.append(" ")  ##将下一个值空出来rating = re.findall(findRating, item)[0]  # 添加评分data.append(rating)judgeNum = re.findall(findJudge, item)[0]  # 添加评价人数data.append(judgeNum)inq = re.findall(findInq, item)  # 添加概述if len(inq) != 0:inq = inq[0].replace("。", "")data.append(inq)else:data.append(" ")bd = re.findall(findBd, item)[0]bd = re.sub('<br(\s+)?/>(\s+)?', " ", bd)bd = re.sub('/', " ", bd)data.append(bd.strip())  # 去掉前后的空格datalist.append(data)return  datalist##保存数据
def  savedata(datalist,savepath):workbook = xlwt.Workbook(encoding="utf-8",style_compression=0) ##style_compression=0不压缩worksheet = workbook.add_sheet("豆瓣电影top250",cell_overwrite_ok=True) #cell_overwrite_ok=True再次写入数据覆盖column = ("电影详情链接", "图片链接", "影片中文名", "影片外国名", "评分", "评价数", "概况", "相关信息")  ##execl项目栏for i in range(0,8):worksheet.write(0,i,column[i]) #将column[i]的内容保存在第0行,第i列for i in range(0,250):data = datalist[i]for j in range(0,8):worksheet.write(i+1,j,data[j])workbook.save(savepath)##爬取网页
def geturl(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ""AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"}req = urllib.request.Request(url,headers=head)try:   ##异常检测response = urllib.request.urlopen(req)html = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e,"code"):    ##如果错误中有这个属性的话print(e.code)if hasattr(e,"reason"):print(e.reason)return htmlif __name__ == '__main__':main()print("爬取成功!!!")


二、爬取百度热搜排行榜Top50+可视化


 2.1  代码思路:

导入所需的库:

python">import requests
from bs4 import BeautifulSoup
import openpyxl

BeautifulSoup 库用于解析HTML页面的内容。

openpyxl 库用于创建和操作Excel文件。

 2.发起HTTP请求获取百度热搜页面内容:

python">url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html = response.content


这里使用了 requests.get() 方法发送GET请求,并将响应的内容赋值给变量 html。

        3.使用BeautifulSoup解析页面内容:

python">soup = BeautifulSoup(html, 'html.parser')


创建一个 BeautifulSoup 对象,并传入要解析的HTML内容和解析器类型。

   4.提取热搜数据:

python">hot_searches = []
for item in soup.find_all('div', {'class': 'c-single-text-ellipsis'}):hot_searches.append(item.text)


这段代码通过调用 soup.find_all() 方法找到所有 <div> 标签,并且指定 class 属性为 'c-single-text-ellipsis' 的元素。

然后,将每个元素的文本内容添加到 hot_searches 列表中。
 

  5.保存热搜数据到Excel:

python">workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Baidu Hot Searches'


使用 openpyxl.Workbook() 创建一个新的工作簿对象。

调用 active 属性获取当前活动的工作表对象,并将其赋值给变量 sheet。

使用 title 属性给工作表命名为 'Baidu Hot Searches'。

        6.设置标题:

python">sheet.cell(row=1, column=1, value='百度热搜排行榜—博主:郭wes代码')


使用 cell() 方法选择要操作的单元格,其中 row 和 column 参数分别表示行和列的索引。

将标题字符串 '百度热搜排行榜—博主:郭wes代码' 写入选定的单元格。

        7.写入热搜数据:

python">for i in range(len(hot_searches)):sheet.cell(row=i+2, column=1, value=hot_searches[i])


使用 range() 函数生成一个包含索引的范围,循环遍历 hot_searches 列表。

对于每个索引 i,使用 cell() 方法将对应的热搜词写入Excel文件中。

        8.保存Excel文件:

python">workbook.save('百度热搜.xlsx')


使用 save() 方法将工作簿保存到指定的文件名 '百度热搜.xlsx'。

        9.输出提示信息:

python">print('热搜数据已保存到 百度热搜.xlsx')


在控制台输出保存成功的提示信息。

源代码

python"> 
import requests
from bs4 import BeautifulSoup
import openpyxl# 发起HTTP请求获取百度热搜页面内容
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html = response.content# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(html, 'html.parser')# 提取热搜数据
hot_searches = []
for item in soup.find_all('div', {'class': 'c-single-text-ellipsis'}):hot_searches.append(item.text)# 保存热搜数据到Excel
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Baidu Hot Searches'# 设置标题
sheet.cell(row=1, column=1, value='百度热搜排行榜—博主:郭wes代码')# 写入热搜数据
for i in range(len(hot_searches)):sheet.cell(row=i+2, column=1, value=hot_searches[i])workbook.save('百度热搜.xlsx')
print('热搜数据已保存到 百度热搜.xlsx')

 

 

 可视化代码:

        

python">import requests
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt# 发起HTTP请求获取百度热搜页面内容
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html = response.content# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(html, 'html.parser')# 提取热搜数据
hot_searches = []
for item in soup.find_all('div', {'class': 'c-single-text-ellipsis'}):hot_searches.append(item.text)# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# 绘制条形图
plt.figure(figsize=(15, 10))
x = range(len(hot_searches))
y = list(reversed(range(1, len(hot_searches)+1)))
plt.barh(x, y, tick_label=hot_searches, height=0.8)  # 调整条形图的高度# 添加标题和标签
plt.title('百度热搜排行榜')
plt.xlabel('排名')
plt.ylabel('关键词')# 调整坐标轴刻度
plt.xticks(range(1, len(hot_searches)+1))# 调整条形图之间的间隔
plt.subplots_adjust(hspace=0.8, wspace=0.5)# 显示图形
plt.tight_layout()
plt.show()

 三、爬取酷狗音乐Top500排行榜

          从酷狗音乐排行榜中提取歌曲的排名、歌名、歌手和时长等信息

总体思路:

python">import requests  # 发送网络请求,获取 HTML 等信息
from bs4 import BeautifulSoup  # 解析 HTML 信息,提取需要的信息
import time  # 控制爬虫速度,防止过快被封IPheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"# 添加浏览器头部信息,模拟请求
}def get_info(url):# 参数 url :要爬取的网页地址web_data = requests.get(url, headers=headers)  # 发送网络请求,获取 HTML 等信息soup = BeautifulSoup(web_data.text, 'lxml')  # 解析 HTML 信息,提取需要的信息# 通过 CSS 选择器定位到需要的信息ranks = soup.select('span.pc_temp_num')titles = soup.select('div.pc_temp_songlist > ul > li > a')times = soup.select('span.pc_temp_tips_r > span')# for 循环遍历每个信息,并将其存储到字典中for rank, title, time in zip(ranks, titles, times):data = {"rank": rank.get_text().strip(),  # 歌曲排名"singer": title.get_text().replace("\n", "").replace("\t", "").split('-')[1],  # 歌手名"song": title.get_text().replace("\n", "").replace("\t", "").split('-')[0],  # 歌曲名"time": time.get_text().strip()  # 歌曲时长}print(data)  # 打印获取到的信息if __name__ == '__main__':urls = ["https://www.kugou.com/yy/rank/home/{}-8888.html".format(str(i)) for i in range(1, 24)]# 构造要爬取的页面地址列表for url in urls:get_info(url)  # 调用函数,获取页面信息time.sleep(1)  # 控制爬虫速度,防止过快被封IP

 


http://www.ppmy.cn/embedded/137162.html

相关文章

Jenkins应用详解(Detailed Explanation of Jenkins Application)

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

CE2.【C++ Cont】练习题组2

1.数字反转 https://www.luogu.com.cn/problem/P5705 题目描述 输入一个不小于 100100 且小于 10001000&#xff0c;同时包括小数点后一位的一个浮点数&#xff0c;例如 123.4123.4 &#xff0c;要求把这个数字翻转过来&#xff0c;变成 4.3214.321 并输出。 输入格式 一行一个…

设计模式之原型模式(上机考试多套试,每人题目和答案乱序排列场景)

前言&#xff1a; 平常你也付出了很多的时间&#xff0c;但就是没有得到多少收益。就像有时候很多小伙伴问我&#xff0c;我是该怎么学一个我没接触过的内容。我的个人经验非常建议&#xff0c;先不要学太多理论性的内容&#xff0c;而是尝试实际操作下&#xff0c;把要学的内容…

5 分钟内最多允许用户尝试登录3次,如果错误次数超过限制,需要对该用户进行锁定。如何实现?

这个问题&#xff0c;其实主要实现2个关键功能即可。 &#xfeff;&#xfeff;限制用户5分钟内最多尝试登录3次。&#xfeff;&#xfeff;对用户进行锁定。 第一个功能&#xff0c;其实是一个典型的滑动窗口问题。 这个可以看看我的主页&#xff0c;有介绍 我们只需要构造…

力扣 LeetCode 59. 螺旋矩阵II(Day1:数组)

解题思路&#xff1a; 使用左开右闭进行四个边的循环赋值 每次进入新的内圈&#xff0c;需要注意起始位置startx和starty的变化&#xff0c;以及边界n - offset的变化 分奇偶圈&#xff0c;判断为奇数圈后需要为中心点赋一次值 class Solution {public int[][] generateMat…

C/C++ 模板与so

在Linux系统中&#xff0c;将相同的模板代码编译到两个不同的共享库&#xff08;.so 文件&#xff09;中是一种相对复杂的操作&#xff0c;通常并不推荐&#xff0c;因为这样做可能会导致符号冲突和二进制膨胀。然而&#xff0c;如果你确实有这样的需求&#xff0c;可以通过一些…

【Linux】如何通过终端命令查看当前可用网络 WIFI + 设置已配置网络的连接优先级 + 连接/断连网络

【Linux】通过命令行&#xff0c;查看当前可用网络 WIFI 设置已配置网络的连接优先级 连接网络 列出所有可连接网络 nmcli device wifi list这个命令会列出所有可连接 wifi&#xff0c;*表示当前连接。 IN-USE BSSID SSID MODE CHAN …

LinkedList和单双链表。

java中提供了双向链表的动态数据结构 --- LinkedList&#xff0c;它同时也实现了List接口&#xff0c;可以当作普通的列表来使用。也可以自定义实现链表。 单向链表&#xff1a;一个节点本节点数据下个节点地址 给定两个有序链表的头指针head1和head2&#xff0c;打印两个链表…