爬虫框架快速入门——Scrapy

news/2024/12/2 3:42:29/

适用人群:零基础、对网络爬虫有兴趣但不知道从何开始的小白。


什么是 Scrapy?

Scrapy 是一个基于 Python 的网络爬虫框架,它能帮助你快速爬取网站上的数据,并将数据保存到文件或数据库中。

特点

  • 高效:支持高并发爬取,性能强悍。
  • 易用:模块化设计,代码清晰,易于上手。
  • 灵活:支持爬取静态页面,还可以结合其他工具爬取动态页面。

准备工作
  1. 安装 Python
    下载并安装 Python 3.x,建议从 Python 官网 获取最新版。

  2. 安装 Scrapy
    在命令行中运行以下命令安装 Scrapy:

    pip install scrapy
    
  3. 验证安装
    输入以下命令检查是否安装成功:

    scrapy version
    

    如果显示版本号,说明安装成功!


第一步:创建 Scrapy 项目
  1. 创建项目
    在命令行进入你想保存项目的目录,运行以下命令:

    scrapy startproject myproject
    

    这会创建一个名为 myproject 的文件夹,结构如下:

    myproject/scrapy.cfg          # 项目配置文件myproject/__init__.py     # 标识包的文件items.py        # 定义数据结构middlewares.py  # 中间件pipelines.py    # 数据处理管道settings.py     # 项目配置spiders/        # 存放爬虫的目录__init__.py
    
  2. 进入项目目录

    cd myproject
    

第二步:创建爬虫

我们以一个简单的网站为例: Quotes to Scrape
目标:爬取网站上的名言和作者。

  1. 生成爬虫文件
    运行以下命令生成爬虫模板:

    scrapy genspider quotes quotes.toscrape.com
    

    这会在 spiders 文件夹下生成一个 quotes.py 文件。

  2. 编辑爬虫代码
    打开 quotes.py,替换为以下代码:

    python">import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/']def parse(self, response):for quote in response.css("div.quote"):yield {'text': quote.css("span.text::text").get(),'author': quote.css("span small.author::text").get(),}# 继续爬取下一页next_page = response.css("li.next a::attr(href)").get()if next_page:yield response.follow(next_page, self.parse)
    

第三步:运行爬虫
  1. 运行爬虫
    在命令行运行以下命令:

    scrapy crawl quotes
    
  2. 保存数据
    如果想将爬取的数据保存为 JSON 文件:

    scrapy crawl quotes -o quotes.json
    

    数据会被保存到 quotes.json 文件中。


第四步:分析代码
  1. start_urls
    定义起始 URL,即爬虫开始爬取的网站。

  2. parse 方法
    负责处理 HTTP 响应,提取数据和下一页链接。

    • response.css 是 CSS 选择器,用于提取网页内容。
    • yield 返回一个字典,保存爬取到的数据。
  3. next_page
    爬取下一页的链接并继续调用 parse 方法。


第五步:进阶功能
  1. 清洗数据
    pipelines.py 中清洗和格式化数据。例如,将作者名统一大小写。

  2. 存储到数据库
    修改 pipelines.py,将数据存储到 MySQL 或 MongoDB。

  3. 添加 User-Agent
    settings.py 中添加自定义 User-Agent,避免被网站屏蔽:

    python">USER_AGENT = 'my-scrapy-bot (http://mywebsite.com)'
    

常见问题
  1. 爬虫被屏蔽
    使用随机 User-Agent 或代理 IP。

  2. 动态页面爬取
    Scrapy 对静态页面支持很好,但对动态加载的内容可能无效。可结合 Selenium 或 Playwright。


总结

恭喜你完成了第一个 Scrapy 爬虫!通过 Scrapy,你可以轻松爬取各种网站的数据。接下来,你可以:

  • 尝试爬取不同类型的网站。
  • 深入学习 Scrapy 的高级功能,如自定义中间件、多线程优化等。

完整代码

项目目录中的爬虫代码最终如下:

python">import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['http://quotes.toscrape.com/']def parse(self, response):for quote in response.css("div.quote"):yield {'text': quote.css("span.text::text").get(),'author': quote.css("span small.author::text").get(),}next_page = response.css("li.next a::attr(href)").get()if next_page:yield response.follow(next_page, self.parse)

动手实践是学习的最好方式!希望这篇文章对你有帮助。如果喜欢,请点赞、评论支持!如果有任何疑问,欢迎留言讨论! 😊


http://www.ppmy.cn/news/1551654.html

相关文章

使用zabbix监控k8s

一、 参考文献 小阿轩yx-案例:Zabbix监控kubernetes云原生环境 手把手教你实现zabbix对Kubernetes的监控 二、部署经验 关于zabbix监控k8s,总体来说是分为两块内容,一是在k8s集群部署zabbix-agent和zabbix- proxy。二是在zabbix进行配置。…

信息增强的图像超分辨率重建

目录 引言信息瓶颈原理 DRCT模型网络架构概览浅层和深层特征提取残差深度特征提取组(RDG)RDG的结构 Swin-Dense-Residual-Connected Block图像重建同任务渐进训练策略(SPTS) 实验结果总结 文章声明:非广告,…

2024.11.28(作业)

思维导图 功能函数声明文件 #ifndef _FUN_H__ #define _FUN_H__ #include <myhead.h>#define MAX 50 //数组大小 #define QAZ 20 //长度和字符串大小typedef int datatype; //数据元素类型//2.1 定义顺序表类型 typedef struct {datatype data[MAX];int len; }S…

学术中常见理论归纳总结-不定期更新

1.信息传播类 1.1 扩散创新理论 创新扩散理论是传播效果研究的经典理论之一,是由美国学者埃弗雷特罗杰斯(E.M.Rogers)于20世纪60年代提出的一个关于通过媒介劝服人们接受新观念、新事物、新产品的理论,侧重大众传播对社会和文化的影响。 1927-1941年进行的“艾奥瓦杂交玉…

3.20MayBeAndroid

invalidate里放着ONDRAW的方法&#xff0c;当调用I时&#xff0c;会自动更新图片 如果上次记录的位置在-1&#xff0c;那么就更新为现在的位置&#xff0c;更新后就不再为-1了&#xff0c;就不再变了 也就是说是保留第一次触碰到的位置 public class CustomView extends View…

CH32v20x单片机risc-v内核uint64_t类型移位后变量为0解决办法

CH32v20x单片机编写程序时遇到uint64_t 变量移位后为0。 uint64_t temp1 0;uint64_t temp2 0;temp1 (pData[0]<<24)|(pData[1]<<16)|(pData[2]<<8)|pData[3];myResControlBoard.rcSetRes temp1<<32;temp2 (pData[4]<<24)|(pData[5]<…

DAY141权限提升-Linux系统权限提升篇VulnhubCapability能力LD_Preload加载数据库等

一、演示案例-Linux系统提权-Web&用户-数据库类型 复现环境&#xff1a;Raven: 2 ~ VulnHub 1、信息收集 http://192.168.139.155/vendor/ 2、Web权限获取 searchsploit phpmailer find / -name 40969.py cp /usr/share/exploitdb/exploits/php/webapps/40969.py p.py p…

Docker 实战:搭建本地 Registry 私有镜像仓库及批量导入脚本

前言&#xff1a;在我之前的博客中&#xff0c;我分享了 Harbor 仓库搭建的详细操作步骤。然而&#xff0c;在实际的生产环境中&#xff0c;并非每个 Docker 环境都需要部署一个规模庞大的 Harbor 仓库。有时&#xff0c;一个轻量级的本地 Registry 私有镜像仓库会更为便捷。本…