15分钟学 Python 第40天:Python 爬虫入门(六)第一篇

devtools/2024/10/10 19:28:29/

Day40 :Python 爬取豆瓣网前一百的电影信息

1. 项目背景

在这个项目中,我们将学习如何利用 Python 爬虫技术从豆瓣网抓取前一百部电影的信息。通过这一练习,您将掌握网页抓取的基本流程,包括发送请求、解析HTML、存储数据等核心技术。

2. 项目目标

  • 爬取豆瓣电影前一百部电影的信息,包括电影名称、评分、评价人数和影片链接。
  • 将抓取的数据保存为CSV文件,便于后续分析。

3. 核心工具

  • Python 3.x :作为编程语言。
  • requests :用于发送 HTTP 请求。
  • BeautifulSoup :用于解析 HTML 文档。
  • pandas :用于数据存储和处理。
  • CSV :文件格式,用于存储数据。

4. 环境准备

确保您的环境中安装了以下库。在终端中运行以下命令:

pip install requests beautifulsoup4 pandas

5. 数据抓取流程

5.1 确定目标网址

我们需要爬取的目标网址为:https://movie.douban.com/top250

5.2 发送请求

使用 requests 库向网页发送请求,获取网页内容。

5.3 解析HTML

使用 BeautifulSoup 解析获取的 HTML 文档。

5.4 提取电影信息

从解析的内容中提取所需的电影信息。

5.5 数据存储

将提取到的数据存储为 CSV 文件。

5.6 运行流程图

开始
发送请求到豆瓣
获取HTML内容
解析HTML
提取电影信息
存储数据到CSV
结束

6. 示例代码

以下是完整的代码示例,分为几个功能部分以便更好理解。

6.1 导入必要的库

python">import requests
from bs4 import BeautifulSoup
import pandas as pd

6.2 发送请求并获取页面内容

python">def fetch_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:print("请求失败", response.status_code)return None

6.3 解析HTML并提取信息

python">def parse_page(html):soup = BeautifulSoup(html, 'html.parser')movies = []for item in soup.find_all('div', class_='item'):title = item.find('span', class_='title').textrating = item.find('span', class_='rating_num').textnum_ratings = item.find('div', class_='star').find_all('span')[-1].text[:-3]  # 去掉"人评价"link = item.find('a')['href']movies.append({'Title': title,'Rating': rating,'Number of Ratings': num_ratings,'Link': link})return movies

6.4 存储数据到CSV

python">def save_to_csv(movies, filename='douban_movies.csv'):df = pd.DataFrame(movies)df.to_csv(filename, index=False, encoding='utf-8-sig')print(f"数据已保存到 {filename}")

6.5 主程序

python">def main():url = 'https://movie.douban.com/top250'html = fetch_page(url)if html:movies = parse_page(html)save_to_csv(movies)if __name__ == '__main__':main()

7. 数据分析与检查

运行完毕后,我们可以使用 pandas 读取 CSV 文件并检查数据:

python">def load_and_check_csv(filename='douban_movies.csv'):df = pd.read_csv(filename)print(df.head())print(f"总电影数: {len(df)}")load_and_check_csv()

8. 样例输出

执行后,输出的 douban_movies.csv 文件中将包含如下示例数据:

TitleRatingNumber of RatingsLink
肖申克的救赎9.7732099https://movie.douban.com/subject/278\n
这个杀手不太冷9.4626208https://movie.douban.com/subject/1309191\n
霸王别姬9.6595214https://movie.douban.com/subject/1291546\n

9. 注意事项

  1. 爬虫机制:豆瓣可能会使用反爬虫技术,如果频繁请求可能会被封禁,建议在请求之间加上延迟。
  2. 合法合规:请遵循使用网站的使用协议,确保抓取信息不违反网站的政策。
  3. 数据质量:抓取到的内容质量可能会有所不同,需要在处理和存储时多加注意。

10. 总结

通过这个项目,您学习了怎样使用 Python 爬虫从豆瓣网抓取数据。掌握了数据获取、解析和存储的基本流程。接下来可以尝试改进程序,例如:增加多线程支持、提取更多信息、抓取多个页面等,以深入理解 Python 爬虫的潜力和应用。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!


http://www.ppmy.cn/devtools/122647.html

相关文章

前端学习——CSS——李白代表作品页面(3)

上传资源的地方:http://download.csdn.net/ 项目要求部分(1) : 支撑知识点: 1.CSS附加方式——外部样式表: --->链接式外部样式表 语法: 在head标签里边写link单标签,其中再…

聚星文社——绘唐科技有什么区别!

聚星文社和绘唐科技是两个不同的公司,有一些区别。下面是它们的一些区别: 绘唐科技——聚星文社https://iimenvrieak.feishu.cn/docx/ZhRNdEWT6oGdCwxdhOPcdds7nof 行业领域:聚星文社主要从事文化娱乐行业,包括出版、影视制作等&…

基于SpringBoot+Vue+MySQL的智能垃圾分类系统

系统展示 用户前台界面 管理员后台界面 系统背景 随着城市化进程的加速,垃圾问题日益凸显,不仅对环境造成污染,也给城市管理带来了巨大挑战。传统的垃圾分类方式不仅费时费力,而且手工操作容易出现错误,导致垃圾分类效…

<STC32G12K128入门第十六步>获取NTP网络时间

前言 这里主要讲解如何通过NTP服务器获取网络时间。 一、NTP是什么? NTP全名“Network TimeProtocol”,即网络时间协议,是由RFC 1305定义的时间同步协议,用来在分布式时间服务器和客户端之间进行时间同步。 NTP基于UDP报文进行传输,使用的UDP端口号为123。使用NTP的目的…

Pikachu-File Inclusion- 本地文件包含

前端每次挑选篮球明星,都会通过get请求,传了文件名,把页面展示出来,由于文件名时前端传给后台;并且查看源码,没有对参数做限制; 尝试直接从前端修改filename 参数; filename../../../../../../…

QT调用最新的libusb库

一:下载libusb文件 下载最新的库的下载网站:https://libusb.info/ 下载: 解压后目录如下: 二:库文件添加QT中 根据自己的编译器选择库: ①将头文件中添加libusb.h ②源文件中添加libusb-1.0.lib ③添加…

上传文件失败,请检查阿里云配置信息:[The specified bucket is not valid.

-- 十一假期结束 -- 去年今日此门中,人面挑花相应红。 -- 人面不知何处去,桃花依旧笑春风。

Golang 服务器虚拟化应用案例

推荐学习文档 golang应用级os框架,欢迎stargolang应用级os框架使用案例,欢迎star案例:基于golang开发的一款超有个性的旅游计划app经历golang实战大纲golang优秀开发常用开源库汇总想学习更多golang知识,这里有免费的golang学习笔…