爬取唯品会商品评论

news/2024/11/17 23:54:38/

爬取唯品会商品评论

爬取各大购物平台的商品评论的方法相似:可以参考以下文章。

链接: https://blog.csdn.net/coffeetogether/article/details/114274960?spm=1001.2014.3001.5501

1.找到目标的url:

在这里插入图片描述

2.检查响应结果:

在这里插入图片描述

3.删除响应数据中的干扰信息:

注:在代码中我们可以通过正则表达来去除干扰信息。

在这里插入图片描述
在这里插入图片描述
通过json在先解析,我们可以得到评论和用户昵称的jsonpath语法

4.寻找翻页规律:

https://mapi.vip.com/vips-mobile/rest/content/reputation/queryBySpuId_for_pc?callback=getCommentDataCb&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101102&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1611985620668_86046d3ae583d23339a1a310c41f271f&wap_consumer=a&spuId=2602031548132642897&brandId=1710615677&page=1&pageSize=10&timestamp=1614694759000&keyWordNlp=%E5%85%A8%E9%83%A8&_=1614694754945
https://mapi.vip.com/vips-mobile/rest/content/reputation/queryBySpuId_for_pc?callback=getCommentDataCb&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101102&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1611985620668_86046d3ae583d23339a1a310c41f271f&wap_consumer=a&spuId=2602031548132642897&brandId=1710615677&page=2&pageSize=10&timestamp=1614695348000&keyWordNlp=%E5%85%A8%E9%83%A8&_=1614695342959
https://mapi.vip.com/vips-mobile/rest/content/reputation/queryBySpuId_for_pc?callback=getCommentDataCb&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101102&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1611985620668_86046d3ae583d23339a1a310c41f271f&wap_consumer=a&spuId=2602031548132642897&brandId=1710615677&page=3&pageSize=10&timestamp=1614695378000&keyWordNlp=%E5%85%A8%E9%83%A8&_=1614695342960

对比前三页的url,发现url的规律在于page参数,而后面的timetamp和_参数不影响请求的发送。因此我们可以手动去除干扰参数。

解析完毕,上代码:

import requests
import re
import jsonpath
import json
if __name__ == '__main__':# 手动输入要爬取的页数pages = int(input('输入要爬取评论的页数:'))# 创建for循环,进行翻页操作for i in range(pages):page = i+1# 确认目标的urlurl_ = f'https://mapi.vip.com/vips-mobile/rest/content/reputation/queryBySpuId_for_pc?callback=getCommentDataCb&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101102&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1611985620668_86046d3ae583d23339a1a310c41f271f&wap_consumer=a&spuId=2602031548132642897&brandId=1710615677&page={page}&pageSize=10&timestamp=1614695344000&keyWordNlp=%E5%85%A8%E9%83%A8&_=1614695342950'# 构造请求头参数headers_ = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','Referer':'https://detail.vip.com/','Cookie':'cps=adp%3Ag1o71nr0%3A%3A%3A%3A; vip_first_visitor=1; vip_address=%257B%2522pid%2522%253A%2522104101%2522%252C%2522cid%2522%253A%2522104101102%2522%252C%2522pname%2522%253A%2522%255Cu6cb3%255Cu5357%255Cu7701%2522%252C%2522cname%2522%253A%2522%255Cu5f00%255Cu5c01%255Cu5e02%2522%257D; vip_province=104101; vip_province_name=%E6%B2%B3%E5%8D%97%E7%9C%81; vip_city_name=%E5%BC%80%E5%B0%81%E5%B8%82; vip_city_code=104101102; vip_wh=VIP_HZ; vip_ipver=31; user_class=a; mars_sid=f59dfc669f4b384e51007fa4e7a9d864; PHPSESSID=1nqdfkfrkqprn0eqvenmdt32v7; mars_pid=0; visit_id=8482B9A56BD0ED0F7428399DD6B79874; VipUINFO=luc%3Aa%7Csuc%3Aa%7Cbct%3Ac_new%7Chct%3Ac_new%7Cbdts%3A0%7Cbcts%3A0%7Ckfts%3A0%7Cc10%3A0%7Crcabt%3A0%7Cp2%3A0%7Cp3%3A1%7Cp4%3A0%7Cp5%3A1%7Cul%3A3105; vip_tracker_source_from=; pg_session_no=16; mars_cid=1611985620668_86046d3ae583d23339a1a310c41f271f'}# 发送请求,获取响应response_ = requests.get(url_,headers=headers_)# 利用正则表达式,去除多余的干扰信息str_data = re.findall(r'getCommentDataCb\((.*?)\)',response_.text)[0]# 将响应的json数据转换为python数据py_data = json.loads(str_data)# 提取数据中客户的id和评论id_list = jsonpath.jsonpath(py_data,'$..authorName')comment_content = jsonpath.jsonpath(py_data,'$..content')# 创建字典,将数据保存保存为json格式for i in range(len(id_list)):dict_ = {}dict_[id_list[i]] = comment_content[i]json_data = json.dumps(dict_,ensure_ascii=False)+',\n'with open('唯品会商品评论.json','a',encoding='utf-8')as f:f.write(json_data)

爬取了2页

执行结果如下:

在这里插入图片描述


http://www.ppmy.cn/news/744409.html

相关文章

Qt6 第一天认识基本模块、附加模块、支持的平台、QML用户界面

文章目录 Qt6 焦点Qt6 核心-基本模块Qt6 附加模块Qt6 支持的平台Qt6 简介Qt6 消化用户界面 Qt6 焦点 Qt 5在很多年前发布,引入了一种新的声明方式来编写令人惊叹的用户界面。从那时起,我们周围的世界发生了很大的变化。 Qt 6将是Qt 5的延续,不…

唯品会财报:一面骄阳,一面寒霜

配图来自Canva可画 在互联网技术飞速发展、物流基础设施日益完善,以及消费者购物习惯不断改变等多重因素的共同影响下,电商行业实现了蓬勃发展。得益于此,电商行业也跑出了许多知名电商品牌,其中既有淘宝、京东、拼多多等综合型电…

唯品会不同阶段发展历程的技术演进

唯品会在2008年12月创立,一直到2012年,唯品会在做的主要事件就是尾货的抛售,做线上的outlets商家。这种商业模式就是帮别人消化库存,但是这个库存消化完了,现在特卖,公司的重点在发生变化。目前电商被分为了…

我在唯品会工作了四年_苦等两年,唯品会消金牌照终于批了,金融业务却“掉队”了...

图片来源:视觉中国 记者 | 邹璐徽 “ 界面新闻发现,唯品金融APP即将停用,早前的“唯品宝”,“唯多利”等金融理财产品也已消失。 ” 9月30日,银保监官网发布关于筹建四川省唯品富邦消费金融有限公司的批复,同意在四川省成都市筹建四川省唯品富邦消费金融有限公司。 批复…

vip唯品会仿页

效果: http://115.159.53.185/test/vip/ html: <!DOCTYPE html> <html><head><meta charset="utf-8" /><title></title><link rel="stylesheet" href="css/style.css" />

唯品会一面

面试时间&#xff1a;10.09-14:00-视频面 &#xff08;35min&#xff09; 介绍项目&#xff0c;项目中遇到的问题以及如何解决&#xff1f;项目中是否有涉及并发操作&#xff0c;有没有在项目中用到多线程和锁&#xff1f;举一个例子团队合作开发项目&#xff0c;用到什么版本…

营收利润双下滑,唯品会正在沉溺

所有图片均来源网络 基于充足的人口及便捷的物流体系&#xff0c;我国的电商行业极为发达&#xff0c;而且从不缺颠覆者。 在淘宝、京东两强格局形成时&#xff0c;拼多多于下沉市场以社交电商脱颖而出&#xff1b;当淘宝、拼多多、京东三平台鼎立时&#xff0c;抖音、快手于…

唯品会数据分析

研究思路 确定好研究唯品会后&#xff0c;就开始要确定数据来源&#xff0c;了解到身边群体普遍使用淘宝和京东&#xff0c;对于唯品会的了解只停留在前段时间的唯品会假货事件和巨额亏损&#xff0c;导致从身边群体搜集数据变得格外困难&#xff0c;所以我们决定从微博入手&am…