爬虫笔记15——爬取网页数据并使用redis数据库set类型去重存入,以爬取芒果踢V为例

devtools/2024/11/14 12:39:46/

下载redis数据库

首先需要下载redis数据库,可以直接去Redis官网下载。或者可以看这里下载过程。

pycharm项目文件下载redis库

> pip install redis 

然后在程序中连接redis服务:

from redis import RedisredisObj = Redis(host='127.0.0.1', port=6379)

这次笔记记录爬取芒果TV的视频信息,通过md5加密并去重存入Redis数据库
目标地址:https://www.mgtv.com/lib/2?lastp=list_index&lastp=ch_tv&kind=19&area=10&year=all&sort=c2&chargeInfo=a1&fpa=2912&fpos=
爬取视频的名称,简介、演员及上映时间吧,代码示例:


import requests
import redis
import pymongo
import hashlib
import json
import timeclass MangGuo:url = 'https://pianku.api.mgtv.com/rider/list/pcweb/v3?allowedRC=1&platform=pcweb&channelId=2&pn=3&pc=80&hudong=1&_support=10000000&kind=19&area=10&year=all&chargeInfo=a1&sort=c2&feature=all'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}def __init__(self):self.redis_obj = redis.Redis(host="localhost", port=6379)self.mongo = pymongo.MongoClient()self.mongo_connection = self.mongo['py_spider']['movies']@classmethoddef get_tv_list(cls):response = requests.get(cls.url, headers=cls.headers).json()# print(response["data"]["hitDocs"])return response["data"]["hitDocs"]def parse_tv_list(self):data_lists = self.get_tv_list()for data in data_lists:deal_data = dict()deal_data["name"] = data["title"]deal_data["desc"] = data["story"]deal_data["stars"] = data["subtitle"]deal_data["year"] = data["year"]print(deal_data)# obj = hashlib.md5()# obj.update(json.dumps(data).encode())# res = obj.hexdigest()hash_obj = hashlib.md5(json.dumps(deal_data).encode()).hexdigest()self.insert_redis(deal_data, hash_obj)# 插入数据到Redis数据库并进行去重def insert_redis(self, data, hash_data):result = self.redis_obj.sadd('movies:filter', hash_data)# 插入数据成功返回1,失败返回0# print(result)if result:print('数据插入成功')# 插入成功说明是没有重复数据的,也就是作去重后多插入一份到MongoDB数据库self.insert_mongodb(data)else:print('重复数据,插入失败')def insert_mongodb(self, data):self.mongo_connection.insert_one(data)# 休眠测试是否同步# time.sleep(1.5)def main(self):self.parse_tv_list()if __name__ == '__main__':manGuo = MangGuo()manGuo.main()

结果如下图,以下是数据库的可视化界面软件:
数据进行加密存入Redis数据库
在这里插入图片描述
数据存入MongoDB:
在这里插入图片描述


http://www.ppmy.cn/devtools/55718.html

相关文章

openai停止中国的api服务,但是性能相当的阿里云免费提供迁移

🎥 开场白: “大家好,我是你们的科技小助手,今天给大家带来一个重要的信息更新!” 🌐 引入话题: “最近,许多朋友可能已经听说了,OpenAI决定停止对中国的服务。但别担心…

自动驾驶系统功能安全解决方案解析

电信、公用事业、运输和国防等关键基础设施服务需要定位、导航和授时(PNT)技术来运行。但是,广泛采用定位系统(GPS)作为PNT信息的主要会引入漏洞。 在为关键基础设施制定PNT解决方案时,运营商必须做出两个…

Docker 的基本概念和优势,以及在应用程序开发中的实际应用。

Docker是一种容器化平台,它可以将应用程序及其依赖项打包成一个独立的、可移植的容器。这些容器可以快速部署到不同的计算机环境中,而不需要担心环境配置的问题。 以下是Docker的基本概念和优势: 容器:Docker使用容器来打包和隔离…

1 哈希应用

O(1) 的哈希 Python中的哈希表主要通过内置的字典(dict)类型实现。对于字典的操作,包括插入(insert)、删除(delete)和查找(lookup)的时间复杂度,在理想情况下…

基本的网络设备:集线器、中继器、网桥、交换机、路由器、防火墙等

基本的网络设备:集线器、中继器、网桥、交换机、路由器、防火墙等 基本功能、原理、优缺点集线器(Hub)中继器(Repeater)网桥(Bridge)交换机(Switch)路由器(Ro…

VMware vCenter Server 8.0U3 发布下载 - 集中式管理 vSphere 环境

VMware vCenter Server 8.0U3 发布下载 - 集中式管理 vSphere 环境 Server Management Software | vCenter 请访问原文链接:https://sysin.org/blog/vmware-vcenter-8-u3/,查看最新版。原创作品,转载请保留出处。 作者主页:sys…

如何通过IPXProxy动态住宅代理增强网络安全与隐私?

​在当今互联网技术日新月异的背景下,动态住宅代理已成为网络运营和数据收集中不可或缺的关键工具。本文将深入探讨动态住宅代理在提升网络安全性和隐私保护方面的重要性。 动态住宅代理与隐私保护 动态住宅代理通过代理服务器连接至互联网,为用户的原始…

Dooprime外汇:如何高效规划家庭理财?从哪里开始?

摘要: 家庭理财是每个家庭都必须面对的重要课题。合理的理财规划不仅能提高家庭的生活质量,还能为未来的生活提供保障。然而,许多人在面对复杂的理财选项和信息时感到无从下手。本文将从不同角度详细分析如何进行高效的家庭理财规划&#xf…