新浪微博评论爬虫小DEMO

news/2024/12/29 1:36:03/

微博模拟登陆(用户手动输入):
(1) POST代理
(2) COOKIE登陆
http://www.cnblogs.com/EmilySun/p/6158147.html
Chrome浏览器打开m.weibo.cn,右键点击检查-> Network->XHR 复制cookie

要爬取的评论网页URL(用户手动输入)
这里写图片描述
Url rnd1487914749536”>http://weibo.com/2033175114/EwQWIk54D?refer_flag=1001030106&c=spr_sinamkt_buy_kuping_weibo_t108&type=comment#_rnd1487914749536

获取该微博的唯一标识RID(getRid函数):
在网页源代码中可以查看到rid=4078300244786067
这里写图片描述

查看评论列表的Ajax接口(因评论列表是动态加载)
这里写图片描述
可以看到Headers的Request URL:
http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4078300244786067&filter=all&from=singleWeiBo&__rnd=1487916628638
通过对每页的url进行分析发现实际上格式应该是:
http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4078300244786067&filter=all&page=1

'http://weibo.com/aj/v6/comment/big?ajwvr=6&id=%s&filter=all&page=%d' % (rid,i)

Filter=all 是获取全部的评论
Filter=hot是获取热门的评论
Request URL打开是一个json格式的网页,关键字有:
code
msg
data:{‘html’,’page’,’count’}
其中html里存储了评论内容、评论时间,count存储了评论个数,page存储了总的评论页数

获取评论(getCommentPages函数)
根据rid和page,可以获得每页的评论内容,用re稍微处理后即可保存在本地中


http://www.ppmy.cn/news/266819.html

相关文章

python 字符串类型

字符串的定义 字符串是一个有序的字符集合,用来存储和表现基于文本的信息。python 中字符串需要使用成对的单引号或双引号括起来,单引号和双引号的字符串是等效的;python 中还允许使用三引号(“”" 或者 ‘’’ )或双引号创建跨越多行的…

CC1312R低功耗高集成度M4F内核Sub-1G收发芯片

目录 CC1312R简介CC1312芯片特性CC1312R参考原理图应用领域 CC1312R简介 CC1312R是一款Sub-1GHz无线MCU,面向无线M-Bus、IEEE 802.15.4g、支持 IPv6 的智能对象 (6LoWPAN)、 KNX RF、 Wi-SUN以及专有系统,包括 TI 15.4-Stack的芯片。 CC1312R是具有成本…

最新LoRaWAN协议V1.0.3中文版_配套文件 地区参数(物理层)- RP002-1.0.3 LoRaWAN® Regional Parameters 中文翻译版本

RP002-1.0.3 LoRaWAN 区域参数 版权所有 © 2021 LoRa Alliance, Inc. 保留所有权利 使用和披露通知 版权所有©LoRa Alliance,Inc.(2021)。版权所有。 本文件中的信息是LoRa联盟(“联盟”)的财产&#xff…

【C语言刷题】牛客网编程入门130精选题目(二)

牛客网编程入门130题–精选(二) 本篇文章衔接博客:牛客网编程入门130–精选(一) 文章目录 牛客网编程入门130题--精选(二)题目OJ链接1.图形相似度2.有序数组中插入一个数3.有序序列判断4.矩阵初等变化5.杨辉三角6.井字棋判断输赢7.进制转换8.小乐乐定闹钟格式输出扩…

TC8:TCP_BASICS_01-17

TCP_BASICS_01: [listen] SYN -> SYN/ACK [syn_recv] 目的 处于LISTEN状态的TCP收到SYN包时,发送SYN+ACK响应 测试步骤 Tester:让DUT进入LISTEN状态,端口号为wnpTester:发送一个SYN包给DUT的wnp端口DUT:发送SYN+ACK期望结果 3, DUT:发送SYN+ACK CANoe TC8 参考 Deri…

CC1310低功耗高速率Sub1G微控制器芯片CC1310F128RSMR

目录 CC1310简介主要特性1. 微控制器2. 超低功耗传感器控制器3. RoHS 封装及选型参考4. 外设5. 外部系统6. 低功耗7. 射频 (RF) 部分 工具和开发环境应用领域 CC1310简介 CC1310是CC13xx 和 CC26xx系列经济高效型超低功耗无线MCU中的一员,支持Sub-1GHz射频。CC1310…

全志V3S嵌入式驱动开发(触摸屏驱动)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 所谓的触摸屏,其实就是在普通的lcd屏幕之上,再加一层屏而已。这个屏是透明的,这样客户就可以看到下面lcd屏幕的…

艺术学习记录

0607 1.领导方式的民主化必然要求法治化。 考生可从两个角度把握:(1)两个“化”: 民主化、法治化。 (2)关系 : 法治化是民主化的必然要求。 2.领导体制制约着领导绩效的高低,对保障一个国家、社会的发展进步具有() 领导体制是实现领导的工具,包括组织机构的设置和权力的划…