scrapy爬取汽车、车评数据【中】

news/2024/10/5 11:30:10/

这个爬虫我想分三期来写:
✅ 第一期写如何爬取汽车的车型信息;
✅ 第二期写如何爬取汽车的车评;
✅ 第三期写如何对车评嵌入情感分析结果,以及用简单的方法把数据插入mysql中;
技术基于scrapy框架、BERT语言模型、mysql数据库。

1 编写评论爬虫

评论爬取我们也是基于接口去获取数据,接口利用工具可以测试下:
在这里插入图片描述

这里面关键的参数有 series_or_motor_id,count和offset ,其中count和offset是翻页参数,series_or_motor_id就是我们上一期爬取到的车型的ID,也就是说,根据车型我们可以爬取对应的车评。
下面编写车评的爬虫,在scrapy工程的spider下新建一个comment.py文件:

name = 'comment'allowed_domains = ['dongchedi.com']start_urls = ['https://www.dongchedi.com/motor/pc/ugc/community/cheyou_list?aid=1839&app_name=auto_web_pc&series_or_motor_id=393&sort_type=2&tab_name=dongtai&count=30&offset=0']series_or_motor_ids = [393]  # 可以扩展为多个IDcount = 30def start_requests(self):for series_or_motor_id in self.series_or_motor_ids:url = f'https://www.dongchedi.com/motor/pc/ugc/community/cheyou_list?aid=1839&app_name=auto_web_pc&series_or_motor_id={series_or_motor_id}&sort_type=2&tab_name=dongtai&count={self.count}&offset=0'yield scrapy.Request(url, callback=self.parse, meta={'series_or_motor_id': series_or_motor_id, 'offset': 0})def __init__(self, *args, **kwargs):super(CommentSpider, self).__init__(*args, **kwargs)self.item_count = 0  # 初始化计数器

一开始先爬去固定的ID,等到后续可以拓展为根据数据库里读取的汽车的ID来循环爬取,这边固定写死一个[393]的列表,作开发测试。
解析代码如下:

    def parse(self, response):data = json.loads(response.text)total_count = data['data']['total_count']series_or_motor_id = response.meta['series_or_motor_id']offset = response.meta['offset']# 提取并处理cheyou_listcheyou_list = data['data']['cheyou_list']for item in cheyou_list:comment_item = CommentItem()comment_item['title'] = item.get('title')comment_item['content'] = item.get('content')comment_item['username'] = item['profile_info'].get('name')comment_item['avatar'] = item['profile_info'].get('avatar_url')self.item_count += 1  # 增加计数器yield comment_item# 判断是否需要继续翻页if offset + self.count < total_count:next_offset = offset + self.countnext_url = f'https://www.dongchedi.com/motor/pc/ugc/community/cheyou_list?aid=1839&app_name=auto_web_pc&series_or_motor_id={series_or_motor_id}&sort_type=2&tab_name=dongtai&count={self.count}&offset={next_offset}'yield scrapy.Request(next_url, callback=self.parse, meta={'series_or_motor_id': series_or_motor_id, 'offset': next_offset})def closed(self, reason):"""爬虫结束时调用"""purple_text = f"\033[95m总共爬取了 {self.item_count} 个评论。\033[0m"self.logger.info(purple_text)

2 items.py

编写对应的Items,其中label是预留到后面存情感分析结果的:

class CommentItem(scrapy.Item):title = scrapy.Field()content = scrapy.Field()username = scrapy.Field()avatar = scrapy.Field()label = scrapy.Field()

3 pipelines.py

pipelines里区分一下,因为之前写过一个item了,这边可以针对评论的Item嵌入情感分析评论内容item[‘content’]的过程。

class SentimentPipeline:def process_item(self, item, spider):# 可以添加保存数据库或文件的逻辑# print(item)if isinstance(item, CommentItem):print('进行情感分析...')# TODOprint(item)if isinstance(item, DongchediItem):print(item)return item

4 运行效果

由于爬取的是接口,所以开发过程非常简单,只需要好好处理翻页参数就可以了:
在这里插入图片描述


http://www.ppmy.cn/news/1534919.html

相关文章

AI不可尽信

看到某项目有类似这样的一段代码 leaves : make([]int, 10) leaves leaves[:0]没理解这样的连续两行,有何作用? 初始化一个长度和容量都为10的切片,接着把切片长度设置为0 即如下demo: (在线地址) package mainimport "fmt"func main() {leaves : make([]int, 1…

增强现实中的物体识别与跟踪

增强现实&#xff08;AR&#xff09;中的物体识别与跟踪是实现虚拟内容与现实世界无缝融合的关键技术。以下是该领域的主要技术和方法概述&#xff1a; 1. 物体识别 1.1 特征提取 SIFT、SURF、ORB&#xff1a;传统的特征提取算法用于识别图像中的关键点并生成描述符&#xf…

STM32-HAL库驱动DHT11温湿度传感器 --2024.9.28

目录 一、教程简介 二、驱动原理讲解 &#xff08;一&#xff09;通信4步骤 &#xff08;二&#xff09;传感器数据解析 三、CubeMX生成底层代码 &#xff08;一&#xff09;基础配置 &#xff08;二&#xff09;配置DHT11的驱动引脚 &#xff08;三&#xff09;配置串口 四…

选择网络安全模式启动Windows系统,解决PC无法连接网络问题

目录 1、电脑无法连接网络 2、发现C:\Windows\System32\drivers路径下的很多文件不见了 3、使用360安全卫士中的断网急救箱工具修复&#xff0c;也就解决不了问题 4、重启系统&#xff0c;以网络安全模式启动系统&#xff0c;修复系统网络模块&#xff0c;完美解决问题 5、…

Java中的数据格式转换:JSON、XML与Protobuf的应用与选择

Java中的数据格式转换&#xff1a;JSON、XML与Protobuf的应用与选择 大家好&#xff0c;我是微赚淘客返利系统3.0的小编&#xff0c;是个冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01;今天我们要聊的主题是Java开发中经常涉及到的一个重要问题——数据格式转换。…

【GEE学习第二期】GEE数据类型、语法

【GEE学习第二期】GEE数据类型、语法 GEE基本数据类型基本语法循环条件判断累加 可视化影像与波段影像集数据导出数值与绘图保存影像 参考 GEE基本数据类型 GEE 中使用的主要数据类型是栅格&#xff0c;涵盖从本地到全球范围的图像&#xff0c;可从数百个卫星和航空资源获得图…

LabVIEW混合控制器质量检测

随着工业自动化水平的提高&#xff0c;对控制器的精度、稳定性、可靠性要求也在不断上升。特别是在工程机械、自动化生产、风力发电等领域&#xff0c;传统的质量检测方法已无法满足现代工业的高要求。因此&#xff0c;开发一套自动化、精确、可扩展的混合控制器质量检测平台成…

【Ubuntu】VMware中虚拟网卡与服务器网卡的绑定

文章目录 服务器网卡和VMware中虚拟网卡的绑定1.在本机上查看需要的网卡名称2.服务器本机设置固定ip3.打开VMware后&#xff0c;将虚拟网卡与本机真实网卡进行绑定。4.给routeOS分配4张网卡&#xff0c;如图所示&#xff1a;5.ubuntu1和ubuntu2只需分配vmnet0和vmnet8即可&…