豆瓣电影排行榜数据爬取

devtools/2024/10/19 13:33:09/

爬虫流程

确定需求

标题,图片链接,评分

找到数据所在链接

[https://movie.douban.com/chart?t=1477886984558](https://movie.douban.com/chart?t=1477886984558

)

构造请求头向服务器发送请求

添加UA

解析数据

使用bs4进行解析数据

存储数据

可以把数据存储到csv文件

 

#构造请求头向服务器发送请求
import requests
链接='https://movie.douban.com/chart?t=1477886984558'
请求头={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'}
response=requests.get(url=链接,headers=请求头)
#print(f'状态码:{response.status_code}') #状态码
response=response.text #源代码#解析数据
from bs4 import BeautifulSoup
soup=BeautifulSoup(response,'lxml') #初始化
标题list=[]
评分list=[]
图片list=[]
for i in soup.find_all(class_="item"):图片链接=i.img['src']标题=i.find(class_="pl2").a.text.strip().replace(' ','').replace('\n','')评分=i.find(class_="pl2").find(class_="rating_nums").text  标题list.append(标题)评分list.append(评分)图片list.append(图片链接)#存储数据
with open('douban.csv','w',encoding='utf-8') as f:f.write('评分,图片,标题\n')for i in range(len(图片list)):f.write(f'{评分list[i]},{图片list[i]},{标题list[i]}\n')


http://www.ppmy.cn/devtools/95056.html

相关文章

【GitHub】github clone远程仓库的时候一直失败

git clone https://github.com/coderwhy/hy-react-web-music.git 正克隆到 hy-react-web-music... fatal: unable to access https://github.com/coderwhy/hy-react-web-music.git/: Failed to connect to github.com port 443 after 75011 ms: Couldnt connect to servergit c…

《机器学习》 KNN算法、数据可视化 No.1

一、了解机器学习 1、什么是机器学习 机器学习是一种人工智能(AI)的分支,旨在让计算机通过数据自动学习和改进。机器学习算法被设计用于从数据中提取模式和规律,然后利用这些模式和规律来做出预测或做出决策,而无需明…

c语言学习,malloc()函数分析

1:malloc() 函数说明: 申请配置size大小内存空间 2:函数原型: void *malloc(size_t size) 3:函数参数: 参数size,为申请内存大小 4:返回值: 配置成功则返回指针&#…

《将进酒》的享乐主义

《将进酒》是唐代诗人李白的代表作之一,以豪放奔放的词句和激昂慷慨的情感赢得了广泛的赞誉。这首诗写的是饮酒壮志未酬的诗人,通过酒来寄托自己对人生与理想的追求和失落,表达出了一种豪情壮志与不甘心命运的矛盾心理。全诗共有十九句&#…

数据结构之AVL树

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:数据结构(Java版) 二叉搜索树的学习 我们在这篇文章中学习了二叉搜索树,知道了当插入的元素序列趋于有序时…

【Kubernetes】身份认证与鉴权

一,认证 所有 Kubernetes 集群有两类用户:由Kubernetes管理的ServiceAccounts(服务账户)和(Users Accounts)普通账户。 两种账户的区别: 普通帐户是针对(人)用户的,服务账户针对Pod进程普通帐户是全局性。在集群所有namespaces…

力扣题/二叉树/二叉树中的最大路径和

二叉树中的最大路径和 力扣原题 二叉树中的 路径 被定义为一条节点序列,序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径 至少包含一个 节点,且不一定经过根节点。路径和 是路径中各节点值的总和。给你一个二叉树…

Qt:exit,quit,close的用法及区别

前言 虽然能从单词的字面意思大致理解这些函数的意思,但是总感觉不出来它们的区别以及用法,特地去研究一下 正文 在 Qt 中,quit、exit 和 close 都是用于终止程序或关闭窗口的方法 1. QApplication::quit() 注意:注意quit() …