scrapy常用命令总结

ops/2024/10/22 14:32:16/

1.创建scrapy项目的命令:
    scrapy startproject <项目名字>
示例:
    scrapy startproject myspider

2.通过命令创建出爬虫文件,爬虫文件为主要的代码文件,通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令:
    在项目路径下执行:
    scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字: 作为爬虫运行时的参数
允许爬取的域名: 为对于爬虫设置的爬取范围,设置之后用于过滤要爬取的url,如果爬取的url与允许的域不通则被过滤掉。

示例:

cd myspider 这一步是进入当前项目路径

scrapy genspider lianjia lianjia.com 再创建爬虫文件

item : 定制你要抓取的字段 比方说你要去爬取一个网站 里面有标题 用name变量去接收 就先在item里面定制好接收的字段
setting:放的是你爬虫的最基本信息 包括爬虫的初始化伪装 也需要在这里面去完成
pipelines:保存数据 --不管你是要保存数据到Excel里面或者数据里面都需要在这个文件抒写
middlewares:爬虫中间件

  1. 运行scrapy
    命令:在项目目录下执行scrapy crawl <爬虫名字>

示例:scrapy crawl 爬虫名字 --nolog 忽略日志信息

7.1 也可爬虫项目中执行命令
每次我们写完代码进行测试的时候,都要去安装目录执行,所以为了方便,我们要写一个再爬虫项目根目录中创建.py结尾的文件,执行以下指令:

from scrapy import cmdline
cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])

#.extract()提取内容方法

打开Scrapy Shel
例如:
cd mySpider 进入项目路径
scrapy shell https://cs.lianjia.com/zufang/ #想要测试的url


http://www.ppmy.cn/ops/37105.html

相关文章

Linux: module: 删除时的两难境地CONFIG_MODULE_FORCE_UNLOAD

CONFIG_MODULE_FORCE_UNLOAD 这个配置,一般是不设置。所以下面这个函数的定义,走到else,就是一直返回:0。 #ifdef CONFIG_MODULE_FORCE_UNLOAD static inline int try_force_unload(unsigned int flags) {int ret = (flags & O_TRUNC);

数据结构——链表专题3

文章目录 一、判断链表是否有环二、返回入环的第一个节点三、随机链表的复制 一、判断链表是否有环 原题链接&#xff1a;判断链表是否有环 这道题可以使用快慢指针&#xff0c;fast一次走两步&#xff0c;slow一次走一步&#xff0c;如果有环&#xff0c;它们在环里面必定会…

【代码Demo】SpringBoot+Redis+定时任务模拟手机短信验证

目录 说明需求代码实现1.依赖2.Controller3.service3.1常量设定3.2判断获取次数3.3判断验证码剩余时间3.4获取验证码3.5保存验证码&#xff0c;设置有效期&#xff0c;累加获取次数3.6校验手机号与验证码service层完整代码 4.设置定时任务&#xff0c;每天0点清除所有短信获取次…

minio getPresignedObjectUrl(GetPresignedObjectUrlArgs args)如何使用

在MinIO Java SDK中&#xff0c;getPresignedObjectUrl 方法现在接受一个 GetPresignedObjectUrlArgs 对象作为参数&#xff0c;这个对象允许你更加灵活地配置生成预签名URL的行为。以下是使用这个方法的一个示例&#xff1a; 首先&#xff0c;确保你已经添加了MinIO Java SDK…

Mybatis入门

我们要 使用Mapper代理方式完成Mybatis入门 第一步&#xff1a;在mysql中创建一张user1表&#xff0c;并添加数据。 create table user1 (id int primary key auto_increment,name varchar(20) not null,sex char default 男,address varchar(20) ); insert into user1 (id,…

iptables---防火墙

防火墙介绍 防火墙的作用可以理解为是一堵墙&#xff0c;是一个门&#xff0c;用于保护服务器安全的。 防火墙可以保护服务器的安全&#xff0c;还可以定义各种流量匹配的规则。 防火墙的作用 防火墙具有对服务器很好的保护作用&#xff0c;入侵者必须穿透防火墙的安全防护…

学习和分析各种数据结构所要掌握的一个重要知识——CPU的缓存利用率(命中率)

什么是CPU缓存利用率&#xff08;命中率&#xff09;&#xff0c;我们首先要把内存搞清楚。 硬盘是什么&#xff0c;内存是什么&#xff0c;高速缓存是什么&#xff0c;寄存器又是什么&#xff1f; 我们要储存数据就要运用到上面的东西。首先里面的硬盘是可以无电存储的&#…

AI模型:windows本地运行下载安装ollama运行Google CodeGemma可离线运行数据模型【自留记录】

AI模型&#xff1a;windows本地运行下载安装ollama运行Google CodeGemma可离线运行数据模型【自留记录】 CodeGemma 没法直接运行&#xff0c;需要中间软件。下载安装ollama后&#xff0c;使用ollama运行CodeGemma。 类似 前端本地需要安装 node.js 才可能跑vue、react项目 1…