python爬虫框架之Scrapy配置文件详解

news/2024/10/23 9:25:17/

概述

简介

配置文件是settings.py

官网配置文档

爬取的相关配置

DOWNLOAD_DELAY

下载者从同一网站下载连续页面之前应等待的时间,可以用来限制爬行速度

单位秒,支持十进制数,如:DOWNLOAD_DELAY = 0.25 # 250 ms of delay

DOWNLOAD_DELAY

允许为任何站点爬行的最大深度。如果为零,则不会施加任何限制(默认:0)

DEFAULT_REQUEST_HEADERS

Scrapy的HTTP请求使用的默认header

COOKIES_ENABLED

是否使用cookie(默认true)

USER_AGENT

爬网时使用的默认User-Agent

提取相关配置

FEED_EXPORT_ENCODING

设置导出时文件的编码

环境变量相关配置

BOT_NAME

项目名

SPIDER_MODULES

Scrapy将在其中查找蜘蛛的模块列表

NEWSPIDER_MODULE

模块在何处使用 genspider 命令

ROBOTSTXT_OBEY

是否遵守robots协议(默认: True)robots协议

CONCURRENT_REQUESTS 

Scrapy下载程序将执行的最大并发请求数(默认: 16)

DOWNLOAD_TIMEOUT

下载器超时时间(单位: 秒)(默认: 180)

CONCURRENT_REQUESTS_PER_DOMAIN

对单个网站进行并发请求的最大值(默认: 8)

CONCURRENT_REQUESTS_PER_IP

将对任何单个IP执行的最大并发请求数(默认: 0)

如果非零,则 CONCURRENT_REQUESTS_PER_DOMAIN 设置被忽略,而是使用此设置,换句话说,并发限制将应用于每个IP,而不是每个域

功能相关配置

TELNETCONSOLE_ENABLED

Telnet Console是否被启用(默认true) telnet console

SPIDER_MIDDLEWARES 

项目中启用的爬虫中间件及其顺序的字典

DOWNLOADER_MIDDLEWARES

项目中启用的下载中间件及其顺序的字典

EXTENSIONS

项目中启用的扩展及其顺序的字典

ITEM_PIPELINES

项目中启用的pipeline及其顺序的字典

# key【pipeline的类全名】:value【优先等级,越小越高】

日志相关配置

LOG_ENABLED

是否启用logging(默认: True)

LOG_ENCODING

logging使用的编码(默认: 'utf-8')

LOG_FILE

logging输出的文件名,如果为None,则使用标准错误输出(默认: None)

LOG_FORMAT

日志的数据格式(默认: '%(asctime)s [%(name)s] %(levelname)s: %(message)s')

LOG_DATEFORMAT

日志的日期格式(默认: '%Y-%m-%d %H:%M:%S')

LOG_LEVEL

log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG(默认: 'DEBUG')

LOG_STDOUT

如果为 True ,进程所有的标准输出(及错误)将会被重定向到log中(默认: False)


http://www.ppmy.cn/news/757475.html

相关文章

JMeter分布式压测连接Jenkins生成HTML报告时候报错No such file or directory

JMeter-master机器上没有该文件。从官网下载的JMeter都会有该文件,添加进去即可。

reeRTOS与HAL库在STM32F103上实现CANFestival从属客户端的解析与实践指南

欢迎阅读本文,我在这里将为大家介绍如何在FreeRTOS和HAL库的环境中在STM32F103上实现CANFestival的从属客户端。我们将详细探讨每一个步骤,并提供少量示例代码,帮助大家理解这个过程。 实战项目下载 1. 前言 在嵌入式系统的开发过程中&…

LR常见问题处理参考方案

一、刚刚破解安装的lr软件,它的默认设置是自动添加关联的,直接录制会让原本没问题的脚本回放时变得不成功。例如:就录一个登陆模块怎么回放都不成功,自己手动添加一个关联也不好用,错误提示: Action.c(20):…

Kubernetes 应用故障排除—调试 Pod

一、调试 Pod 调试 Pod 的第一步是查看 Pod 信息。用如下命令查看 Pod 的当前状态和最近的事件: kubectl describe pods ${POD_NAME}查看一下 Pod 中的容器所处的状态。这些容器的状态都是 Running 吗?最近有没有重启过? 后面的调试都是要…

MySQL:数据的增删改查

数据的增删改查 前言一、插入数据1、实际问题2、方式1:VALUES的方式添加3、方式2:将查询结果插入到表中 二、删除数据三、更新数据四、查询数据五、MySQL8新特性:计算列 前言 本博主将用CSDN记录软件开发求学之路上亲身所得与所学的心得与知…

18W PD充电器方案

由于人们对于智能手机的依赖,往往都是一天一充,甚至使用强度稍大时要一天两充,这对我们的生活造成很大不便,如果紧急情况下手机突然断电了,必然会对生活造成影响,骊微电子推出18W PD快速充电器方案,充电功率可达18W,智能兼容12V、9V和5V多种电压。 QC3.0快充18W充电器方…

web安全php基础_魔术常量__FUNCTION__与__METHOD__的区别

PHP 魔术常量 PHP 向它运行的任何脚本提供了大量的预定义常量。 不过很多常量都是由不同的扩展库定义的,只有在加载了这些扩展库时才会出现,或者动态加载后,或者在编译时已经包括进去了。 有八个魔术常量它们的值随着它们在代码中的位置改…

openfeign 不能处理text/plain的方法

不做特殊处理&#xff0c;openfeign 不能反序列化 对方返回的 数据 &#xff0c;如果response header是text/plain or text/json的话。通常会出现 Could not extract response: no suitable HttpMessageConverter found for response type [cn.justme.sboot.entity.BaseResp<…