爬虫数据存储:Redis、MySQL 与 MongoDB 的对比与实践

server/2024/12/28 7:45:43/

爬虫的核心任务是从网络中提取数据,而存储这些数据是流程中不可或缺的一环。根据业务需求的不同,存储的选择可能直接影响数据处理的效率和开发体验。本文将介绍三种常用的存储工具——Redis、MySQL 和 MongoDB,分析它们的特点,并提供相关的入库示例代码。


一、数据库选型分析
  1. Redis

    • 特点:内存数据库,速度极快,支持多种数据结构(如字符串、哈希表、列表、集合等)。

    • 适用场景:适合临时数据缓存、去重、任务队列等场景。

    • 优点:高性能、简单易用。

    • 缺点:数据量大时成本高(内存占用)。

  2. MySQL

    • 特点:关系型数据库,结构化存储,支持 SQL 查询。

    • 适用场景:需要复杂查询、事务支持的场景。

    • 优点:稳定成熟、生态完善。

    • 缺点:对频繁写入操作性能稍弱。

  3. MongoDB

    • 特点:非关系型数据库,文档存储模式(JSON 格式),灵活性高。

    • 适用场景:非结构化或半结构化数据存储,数据模型多变的场景。

    • 优点:易扩展、查询灵活。

    • 缺点:事务支持较弱,复杂查询性能略逊于 MySQL。


二、示例代码:存储爬取数据

我们以一个模拟的数据样例为例,展示如何分别将数据存储到 Redis、MySQL 和 MongoDB 中。

数据样例
data = {"id": 1,"title": "爬虫数据存储:Redis、MySQL 与 MongoDB 的对比与实践","author": "CSDN-MySheep","url": "https://blog.csdn.net/m0_60082046/article/details/144704817"
}
1. Redis 存储
import redis# 连接 Redis
redis_client = redis.StrictRedis(host='localhost', port=6379, db=0)# 将数据存入 Redis
redis_client.hset(f"article:{data['id']}", mapping=data)# 验证存储结果
stored_data = redis_client.hgetall(f"article:{data['id']}")
print(f"Redis 存储结果:{stored_data}")
2. MySQL 存储
import pymysql# 连接 MySQL
connection = pymysql.connect(host='localhost', user='root', password='password', database='crawler_db')
cursor = connection.cursor()# 创建表(如果不存在)
cursor.execute("""
CREATE TABLE IF NOT EXISTS articles (id INT PRIMARY KEY,title VARCHAR(255),author VARCHAR(50),url VARCHAR(255)
)
""")# 插入数据
sql = "INSERT INTO articles (id, title, author, url) VALUES (%s, %s, %s, %s)"
cursor.execute(sql, (data['id'], data['title'], data['author'], data['url']))# 提交事务
connection.commit()
print(f"MySQL 存储完成:ID {data['id']}")# 关闭连接
cursor.close()
connection.close()
3. MongoDB 存储
from pymongo import MongoClient# 连接 MongoDB
mongo_client = MongoClient("mongodb://localhost:27017/")
db = mongo_client["crawler_db"]
collection = db["articles"]# 插入数据
collection.insert_one(data)
print(f"MongoDB 存储完成:{data}")

三、Redis、MySQL 和 MongoDB 的对比
特性RedisMySQLMongoDB
类型内存数据库关系型数据库非关系型数据库
性能较高
存储格式Key-Value表格(行、列)文档(JSON 格式)
查询支持简单查询强大的 SQL 支持灵活的文档查询
事务支持基础事务支持完备的事务支持有限的事务支持
适用场景缓存、任务队列复杂查询、结构化存储半结构化/非结构化存储

四、选择建议
  1. 如果需要高速缓存和简单存储:选择 Redis。

    • 适合存储爬取任务队列、去重记录等。

    • 在企业等工作中也会常用到Redis,因为入库是和采集是分开的,一般会使用Redis作为中间层,爬虫将数据推入Redis队列,负责入库的程序会读取数据进一步进行数据处理再转为结构化数据入库,例如外文翻译为中文,情感打分等。

  2. 如果数据有固定结构,需要复杂查询:选择 MySQL。

    • 适合存储文章、用户信息等结构化数据。

  3. 如果数据格式灵活多变:选择 MongoDB。

    • 适合爬取社交媒体、日志数据等非结构化内容。


五、总结

爬虫开发中,选择合适的数据库存储工具能够大幅提升数据处理的效率和开发体验。Redis 的高性能缓存、MySQL 的结构化支持、MongoDB 的灵活性,各有千秋。根据项目需求合理选择存储方案,能够让你的爬虫更高效、更稳定。


http://www.ppmy.cn/server/153848.html

相关文章

海康RGBD相机使用C++和Opencv采集图像记录

海康RGBD相机使用C和Opencv采集图像记录 RGBD相机型号:MV-EB435i 配置:1.Vs2019 2.Opencv4.6 一、安装客户端 1.下载链接 HiViewer 2.官方Samples 安装后,在帮助-development中,可以看到一些samples,但是这些样例…

windows安装mongodb

一.安装包准备 1.服务端下载 https://www.mongodb.com/try/download/communitya 按需选择,我们这里选择社区版 直接点download浏览器下载可能比较慢,可以尝试copy link后用三方下载软件,会快很多。 2.命令行客户端安装 https://www.mong…

线性代数行列式

目录 二阶与三阶行列式 二元线性方程组与二阶行列式 三阶行列式 全排列和对换 排列及其逆序数 对换 n阶行列式的定义 行列式的性质 二阶与三阶行列式 二元线性方程组与二阶行列式 若是采用消元法解x1、x2的话则得到以下式子 有二阶行列式的规律可得:分…

问题小记-达梦数据库报错“字符串转换出错”处理

最近遇到一个达梦数据库报错“-6111: 字符串转换出错”的问题,这个问题主要是涉及到一条sql语句的执行,在此分享下这个报错的处理过程。 问题表现为:一样的表结构和数据,执行相同的SQL,在Oracle数据库中执行正常&#…

【每日学点鸿蒙知识】线程创建、构造函数中创建变量仍报错、List上下拖拽,调用JS代码、无法选择本地csr文件问题

1、HarmonyOS 如何创建一个单线程? 请问 worker 是单线程还是多线程?如果 worker 不是单线程,如何创建一个单线程呢? ArkTS是单线程模型,所以worker也是单线程,他是在宿主线程上创建的一个子线程&#xf…

指定Bean加载顺序的能力

springboot遵从约定大于配置的原则,极大程度的解决了配置繁琐的问题。在此基础上,又提供了spi机制,用spring.factories可以完成一个小组件的自动装配功能。 在一般业务场景,可能是不需要关心一个bean是如何被注册进spring容器的&…

基于GEE云计算、多源遥感、高光谱遥感技术蓝碳储量估算;红树林植被指数计算及提取

海洋是地球上最大的“碳库”,“蓝碳”即海洋活动以及海洋生物(特别是红树林、盐沼和海草)能够吸收大气中的二氧化碳,并将其固定、储存在海洋中的过程、活动和机制。而维持与提升我国海岸带蓝碳潜力是缓解气候变化的低成本、高效益的方案&…

VS Code AI开发之Copilot配置和使用详解

随着AI开发工具的迅速发展,GitHub Copilot在Cursor、Winsuf、V0等一众工具的冲击下,推出了免费版本。接下来,我将为大家介绍GitHub Copilot的配置和使用方法。GitHub Copilot基于OpenAI Codex模型,旨在为软件开发者提供智能化的代…