手把手教你爬取网站信息

news/2024/10/31 9:29:25/

如题,理解这一部分需要一定的Python基础,有些代码我不做详细解释了,但是用这个方法是确实可以爬到的。
此次用以下这个页面(可以用md5软件解密)
1476409DEDD7A55FE86915BC370A3ECD

爬取电影的详情数据

1. 在抓包⼯具中先定位到和浏览器地址栏的⽹址⼀样的数据包
①在页面中右击鼠标,点击检查,博主这里用的是Google浏览器
②在弹出来的页面中点击Network,然后再重新刷新一下网页
③在Name列表随意点击一项(单击即可)
④再按Ctrl+F调出搜索框,随意搜索一部列表中的电影,点击列表中的选项,此时搜索框右边的信息已经发生变化了,点击Headers即可定位到包含搜索数据的指定数据包。从指定数据包中就可以提取出url
在这里插入图片描述
继续把滚动条往下拉,拉到最底部,有一个User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36
这个是反UA反爬机制的代码,这个也要用到,可以先准备好,并放在代码的最开始

在这里插入图片描述

2. 查看请求参数
此页面的请求⽅式为get请求参数:这一点可以在Headers查看到:
在这里插入图片描述

点击Payload可以查看请求参数,把这一段复制进你的代码里,但是需要把这里的limit的值改为100,这样才是前100的电影,如果想要前200,改成200即可
在这里插入图片描述

3. 获取相应数据

response = requests.get(url=url,headers=head,params=pram)

这里要把get的三个参数都写进来,因为都用得到

4. 建一个文件来存储爬到的信息

page_text = response.json()
fp = open("./douban.txt","w",encoding="utf8")

此处注意编码和解码的问题,如果没有encoding=“utf8”,可能会报错。

  1. 用循环来遍历前100个"title"和"score"字段
fp = open("./douban.txt","w",encoding="utf8")
for dic in page_text:title = dic['title']score = dic['score']fp.write(title+':'+score+'\n')

6. 源代码

import requests
head={#存放需要伪装的头信息"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36"
}pram={#请求参数"type": "13","interval_id": "100:90","action": "","start": "0","limit": "100",
}url='https://movie.douban.com/j/chart/top_list'response = requests.get(url=url,headers=head,params=pram)
#获取响应数据
#json()可以将获取到的json格式的字符串进⾏反序列化page_text = response.json()
fp = open("./douban.txt","w",encoding="utf8")
for dic in page_text:title = dic['title']score = dic['score']fp.write(title+':'+score+'\n')
print(title,'爬⾍保存成功!')

7. 运行结果
在这里插入图片描述


http://www.ppmy.cn/news/58623.html

相关文章

计算机视觉介绍

文章目录 计算机视觉基础介绍1.数字图像处理2.特征提取3.图像分类4.物体检测5.深度学习与计算机视觉6.常见工具和库7.常见应用9.计算机视觉的挑战和未来10.计算机视觉中的伦理和隐私问题12.计算机视觉与其他领域的交叉应用 计算机视觉基础介绍 计算机视觉是指使用计算机技术对…

【校招VIP】很神奇,把简历上的学校名称和姓名盖住,其它的部分都很常见,那简历通过率一定很低

在五一之前的一场简历指导的直播里面,发现了一份有意思的简历。 大家如果把这份简历的学校和姓名抹掉,会发现好像跟自己写的简历一模一样。 技能、项目等都是很通用的。 也就是说,这份简历你能写,你的同学也可以写,甚…

2023年,web前端工程师20道Vue面试题及解析

本文章列出了20道关于Vue.js的面试题,包括基础和进阶问题,并提供了问题的答案及解析,以帮助读者更好地准备面试。从指令、生命周期函数到组件间通信和路由等各方面都作了涉及。 1. 什么是Vue.js?它有哪些特点? 答案&…

Renesa 瑞萨 A4M2 移植文件系统FAT32

工程创建 Resc进行可视化配置工程 选定芯片型号 配置SDIO底层驱动(SD card) 跳到对应GPIO,进行复用 将Operation Mode配置 SD_MMC 4Bit,系统会自动配置 会到stacks 根据上面提示,解决错误。 解决第一个error S…

代码随想录算法训练营第48天|打家劫舍系列● 198.打家劫舍 ● 213.打家劫舍II ● 337.打家劫舍III

198. 打家劫舍 题目链接:198打家劫舍 题目描述: 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被…

详解map、set、multimap、multiset的使用

✍作者:阿润菜菜 📖专栏:C 目录 前言set、multiset的使用1. set2. multiset3. 什么时候应该使用multiset而不是set map、multimap的使用1.map2.multimap3.什么时候应该使用multimap而不是map 前言 map、set、multimap、multiset是C STL中的四…

K210单片机的按键检测

这个图片是程序的效果,按下按键后蓝灯亮起,松开按键后蓝灯熄灭。 主要用的的就是函数的构造方法和使用方法: GPIO(ID,MODE,PULL,VALUE) GPIO 对象。 【ID】内部 GPIO 编号; 【MODE】GPIO 模式; GPIO.IN &#x…

如何学习数据结构和算法

背景: 对待数据结构与算法的态度可能大多数人就是觉得晦涩难懂。这节课我们跟随老师看看老师是如何带领我们入门的。 定义: 首先我们了解数据结构和算法的定义: 从广义上讲,数据结构就是指一组数据的存储结构。算法就是操作数…