Python爬虫--Ajax异步抓取腾讯视频评论

server/2024/9/25 10:34:25/

在某些网站 ,当我们滑下去的时候才会显示出后面的内容

就像淘宝一样,滑下去才逐渐显示其他商品

这个就是采用 Ajax 做的

然后我们现在就是要编写这样的爬虫

规律分析:

这个时候就要用到我们的 Fiddler 了

我们需要分析加载评论的规律

首先使用火狐浏览器随便打开一个视频,注意设置好代理

然后打开 Fiddler 抓包 ,然后再点击查看更多评论,

拿魔道祖师演示吧,毕竟我也喜欢看

就是这个位置

images


然后查看 Fiddler

抓到的东西就很多杂七杂八的了,

有链接啊,图片什么的,这些显然不是评论

images


然后查看一个 js 文件 ,发现这就是我们想要的评论

images


然后把评论的 url 复制出来分析规律

右键点击 js 链接,然后再选择 Copy –> Just Url

images


如果一条分析不了,那么我们就多加载一两条看看

这样我们就有了三条做分析了

images


首先看这个地方,

这个应该是这部视频的 id 2850613872

images


接下来是评论 id

但是貌似 id 都不一样,我可以打开评论链接看看有没有规律

images


打开第一个评论链接,

然后发现第一个评论链接里的 last 6426734762166565246 正好是第二条评论链接里面的 id

然后查看其他的,发现依旧如此

然后我们就得到了一个结论,

就是第一条评论链接里面的 last id 等于 第二条评论链接里面的 id

images


发现评论 id 的规律后,

接下来就是评论了

评论内容在 content 里面

images


后面这个字符串的话

前十位是时间戳,后面三位没有发现有啥规律

太菜了我

推测可能是评论数

不过有没有这个字符串短时间内不影响我们获取评论内容

这个感觉就是一个时间限制,在一定时间内有效

images


只抓取一页的评论:

知道规律后

可以试试抓取评论内容

接下来我们尝试只抓取一个链接里面的内容

代码:


import urllib.request
import re
import timeheaders = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36")opener = urllib.request.build_opener()opener.addheaders = [headers]urllib.request.install_opener(opener)video_id = "2850613872"comment_id = "6422202556761345058"url = "https://video.coral.qq.com/varticle/"+video_id+"/comment/v2?callback=_varticle2850613872commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+comment_id+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1566709851532"path = '"content":"(.*?)",'data = urllib.request.urlopen(url).read().decode("utf-8")resut = re.compile(path).findall(data)print(resut)

然后就获取到了一页的评论 😂😂 ❤❤ 🙃🙃 (눈_눈)(눈_눈)

😡😡 😊😊 😄😄 🤣🤣 😒😒 🤬🤬 😘😘

images


自动抓取全部评论:

接下来就要抓取全部评论了

思路:

获取 last id 作为下一次链接的评论 id

代码:


import urllib.request
import re
import timetry:headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36")opener = urllib.request.build_opener()opener.addheaders = [headers]urllib.request.install_opener(opener)video_id = "2850613872"  #  视频 idcomment_id = "6422202556761345058"  #  初始评论 idfor i in range(1,6):print("第"+str(i)+"页")url = "https://video.coral.qq.com/varticle/"+video_id+"/comment/v2?callback=_varticle2850613872commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+str(comment_id)+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1566709851532"content_path = '"content":"(.*?)",'  #  评论内容正则last_path = '"last":"(.*?)",'  #  last id 正则content_data = urllib.request.urlopen(url).read().decode("utf-8")content = re.compile(content_path).findall(content_data)  #  获取评论last_id = re.compile(last_path).findall(content_data)  # 获取 last idfor j in last_id:  #  获取的 last id 是列表类型,要进行类型转换comment_id = j# print(comment_id)print(content)  #  输出获取的评论except Exception as error:print(error)

然后成功获取到评论

运行截图

images


http://www.ppmy.cn/server/20319.html

相关文章

CST Studio初级教程 三

本节教程主要讲解CST中常用的选取操作,CST是一款3D软件,一个3D模型的构成离不开点、线面、特征等,选取操作也就是选取这些内容。 选取快捷键 S 按下快捷键S,可选取点(Points)、棱线(Edges&…

用C实现通讯录(详细讲解+源码)

前言 📚作者简介:爱编程的小马,正在学习C/C,Linux及MySQL.. 📚以后会将数据结构收录为一个系列,敬请期待 ● 本期内容会给大家带来通讯录的讲解,主要是利用结构体来实现通讯录,该通讯…

天星金融普及银行卡防盗刷知识,助力消费者安全用卡

移动互联网的迅猛发展推动了手机银行等业务的广泛应用,然而,一些不法分子利用伪造银行卡、窃取持卡人身份信息等手段进行盗刷,严重侵犯了消费者的信息安全和财产安全,对金融市场的稳定和安全造成了威胁。为此,天星金融…

mongodb替代品SequoiaDB的安装使用

前言 1、为什么不直接使用mongodb啊? 答:mongodb的使用协议是SSPL,一旦使用需要将你服务器程序都开源处理–或者给钱。非常不好,而SequoiaDB号称能够兼容mongodb协议,这次来安装试试。 mongodb - SSPL,Seq…

Git 保姆级教程(一):Git 基础

一、获取 Git 仓库 通常有两种获取 Git 项目仓库的方式: 1. 将尚未进行版本控制的本地目录转换为 Git 仓库; 2. 从其它服务器克隆 一个已存在的 Git 仓库。 两种方式都会在你的本地机器上得到一个工作就绪的 Git 仓库。 1.1 git init(本地…

Python_AI库 Matplotlib的应用简例:绘制与保存折线图

本文默认读者已具备以下技能: 熟悉Python基础语法,以自行阅读python代码块熟悉Vscode或其它编辑工具的应用 在数据可视化领域,Matplotlib无疑是一个强大的工具。它允许我们创建各种静态、动态、交互式的可视化图形,帮助我们更好…

typescript:vscode的settings配置文件配置ts语法提示

typescript:vscode的settings配置文件配置ts语法提示 1 找到vscode左下角的齿轮按钮 2 点击Settings(或者快捷键ctrl,): 点击右上角的Open Settings(JSON)按钮打开配置文件: 或者ctrlshiftp,搜索settings&…

FFMpeg - macOS build 报错 : xcrun -sdk iphoneos clang ...

文章目录 报错1:xcrun -sdk iphoneos clang is unable to create an executable file报错 2 : error: unknown type name AudioDeviceID; 在 macOS 上使用 https://github.com/kewlbear/FFmpeg-iOS-build-script 脚本,运行 ./build-ffmpeg.sh…