爬虫框架Scrapy从入门到实战

server/2025/4/2 5:49:55/

一、Scrapy框架概述

1.1 什么是Scrapy

Scrapy是一个基于Twisted的异步网络爬虫框架,具有以下特性:

  • 内置数据提取器(Selector)

  • 完善的中间件扩展体系

  • 自动的请求调度机制

  • 支持多种数据存储方式

1.2 Scrapy vs Requests

特性ScrapyRequests+BS4
并发能力异步高性能同步单线程
项目结构标准化目录自由脚本结构
扩展性中间件系统需手动实现
适用场景大型爬虫项目小规模数据采集

二、环境搭建

2.1 安装Scrapy

pip install scrapy
# 验证安装
scrapy version  # 应输出版本号如2.11.0

2.2 创建项目

scrapy startproject book_scraper
cd book_scraper
scrapy genspider book_spider books.toscrape.com

生成的项目结构:

book_scraper/
├── scrapy.cfg
└── book_scraper/├── __init__.py├── items.py       # 数据容器定义├── middlewares.py # 中间件配置├── pipelines.py   # 数据管道├── settings.py    # 全局配置└── spiders/       # 爬虫目录└── book_spider.py

三、核心组件详解

3.1 Spider类(爬虫核心)

python

复制

python">import scrapyclass BookSpider(scrapy.Spider):name = "book_spider"  # 爬虫唯一标识allowed_domains = ["books.toscrape.com"]start_urls = ["http://books.toscrape.com/"]def parse(self, response):# 解析逻辑passimport scrapyclass BookSpider(scrapy.Spider):name = "book_spider"  # 爬虫唯一标识allowed_domains = ["books.toscrape.com"]start_urls = ["http://books.toscrape.com/"]def parse(self, response):# 解析逻辑pass

3.2 Item类(数据结构)

python"># items.py
import scrapyclass BookItem(scrapy.Item):title = scrapy.Field()price = scrapy.Field()rating = scrapy.Field()stock = scrapy.Field()

3.3 Pipeline(数据处理管道)

python"># pipelines.py
class BookPipeline:def process_item(self, item, spider):# 数据清洗/存储逻辑if item['price']:item['price'] = float(item['price'].replace('£', ''))return item

3.4 Middleware(中间件系统)

python"># middlewares.py
class RandomDelayMiddleware:def process_request(self, request, spider):# 设置随机请求延迟(0.5-1.5秒)delay = random.uniform(0.5, 1.5)request.meta['download_timeout'] = delay

四、完整爬虫实战

4.1 编写爬虫逻辑

python"># spiders/book_spider.py
class BookSpider(scrapy.Spider):name = 'book_spider'def start_requests(self):urls = [f"http://books.toscrape.com/catalogue/page-{i}.html" for i in range(1,51)]for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):books = response.css('article.product_pod')for book in books:item = BookItem()item['title'] = book.css('h3 a::attr(title)').get()item['price'] = book.css('p.price_color::text').get()item['rating'] = book.css('p.star-rating::attr(class)').get().split()[-1]yield item# 自动翻页(已由start_requests实现)

4.2 配置settings.py

python"># 启用Pipeline
ITEM_PIPELINES = {'book_scraper.pipelines.BookPipeline': 300,
}# 遵守robots协议
ROBOTSTXT_OBEY = True  # 并发控制
CONCURRENT_REQUESTS = 16  
DOWNLOAD_DELAY = 0.5

4.3 运行爬虫

scrapy crawl book_spider -o books.csv
# 支持导出格式:json, csv, xml等

五、高级功能扩展

5.1 动态网页处理(Selenium中间件)

python"># middlewares.py
from selenium import webdriverclass SeleniumMiddleware:def process_request(self, request, spider):if request.meta.get('selenium'):driver = webdriver.Chrome()driver.get(request.url)html = driver.page_sourcedriver.quit()return HtmlResponse(url=request.url, body=html, encoding='utf-8')

5.2 分布式爬虫(Redis集成)

python"># settings.py
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://localhost:6379'

5.3 自动限速算法

python"># settings.py
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5.0
AUTOTHROTTLE_MAX_DELAY = 60.0

六、调试技巧

6.1 Scrapy Shell

scrapy shell "http://books.toscrape.com"
>>> response.css('title::text').get()
'All products | Books to Scrape - Sandbox'

6.2 日志分级

scrapy crawl book_spider -L INFO  # DEBUG/INFO/WARNING/ERROR

6.3 中间件断点调试

python"># 在middleware中插入调试代码
import pdb; pdb.set_trace()

七、最佳实践

  1. 遵守robots.txt:设置ROBOTSTXT_OBEY = True

  2. 设置User-Agent:使用随机User-Agent中间件

  3. 异常处理:覆盖spider_error回调

  4. 数据去重:使用scrapy-deltafetch扩展

  5. 监控报警:集成ScrapydWeb可视化面板

八、常见问题解答

Q1:如何处理登录验证?

python"># 在Spider中实现登录
def start_requests(self):return [scrapy.FormRequest('https://example.com/login',formdata={'user': 'admin', 'pass': 'secret'},callback=self.after_login)]

Q2:如何避免被封IP?

  • 使用代理中间件

  • 设置合理的DOWNLOAD_DELAY

  • 使用scrapy-rotating-proxies扩展

Q3:如何抓取JavaScript渲染的页面?

  • 使用Selenium中间件

  • 集成Splash服务

  • 使用scrapy-playwright


本文技术要点

  1. Scrapy框架的组件化设计

  2. 可扩展的中间件系统

  3. 生产级爬虫的最佳实践

  4. 分布式爬虫架构基础

  5. 常见反爬应对策略

下一步学习建议

  • 研究Scrapy源码理解运行机制

  • 学习Scrapy-Redis实现分布式

  • 实践反反爬技术(验证码识别、指纹伪装)


http://www.ppmy.cn/server/179796.html

相关文章

AI玩具迎来爆发式增长,IoT行业如何抓住机遇?

最近这两年,AI技术的迅猛发展,对整个社会产生了深远影响。各行各业都在经历AI所带来的变革。很多的产品,正在加速融入AI元素。 玩具产业及其产品也不例外。想必大家已经注意到相关新闻,许多制造商正积极将AI大模型技术与传统玩具相…

Appium Inspector使用教程

1.下载最新版本 https://github.com/appium/appium-inspector/releases 2.本地启动一个Appium服务 若Android SDK已安装Appium服务,则在任意terminal使用appium启动服务即可 3.Appium Inspector客户端配置连接到Appium服务 Configuring and Starting a Session…

一个轻量级的 SQLite ORM 工具包

一个轻量级的 SQLite ORM 工具包,专为 Node.js 应用程序设计【Alpha版】 由来 在开发《Electron Vite Vue 桌面应用模板》时为了方便数据库操作延伸而来。 特性 简单高效的数据库连接管理基于实体的表结构定义自动表创建和迁移类型安全的查询构建器通用仓储模…

《汽车理论》第一章作业1.3

1.3确定一轻型货车的动力性能(货车可装用4挡或5挡变速器,任选其中的一种进行整车性能计算) 1)绘制汽车驱动力与行驶阻力平衡图。 ①汽车驱动力: ②行驶阻力: ③发动机转速与汽车行驶速度之间的关系: %%驱动力-行驶阻力平衡图号货…

Elasticsearch客户端工具初探--kibana

1 Kibana简介 Kibana是Elastic Stack(ELK)中的可视化工具,用于对Elasticsearch中存储的数据进行搜索、分析和可视化展示。它提供了直观的Web界面,支持日志分析、业务监控、数据探索等功能,广泛应用于运维监控、安全分析…

自动化框架的设计与实现

一、自动化测试框架 在大部分测试人员眼中只要沾上“框架”,就感觉非常神秘,非常遥远。大家之所以觉得复杂,是因为落地运用起来很复杂;每个公司,每个业务及产品线的业务流程都不一样,所以就导致了“自动化…

Git+Fork 入门介绍

git 分区理解 fork安装 从路径下去拿软件时,注意先拉到本地。经验来看,fork直接安装会出不可思议的问题。 fork操作 安装,注意设置好名字,如果之前安装的同学,名字没有写好,重新安装设置好名字。 clone操…

Elasticsearch 之 ElasticsearchRestTemplate 普通查询

前言: 上一篇我们分享了 Spring Boot 整合 Elasticsearch 使用 ElasticsearchRepository 完成简单的增删改查,我们发现 ElasticsearchRepository 中很多稍微复杂一些的查询就会显示方法过期,对于 Elasticsearch 7.X 版本,我们可以…