Python Scrapy爬虫框架安装和创建

news/2025/1/25 3:43:31/

1、检查Win环境 python版本

python

 2、whl方式安装 twisted

     twisted异步网络框架,可加快下载速度。优点是用少量的代码实现快速的抓取。

    由于scrapy需要twisted的环境,我们直接去下载whl文件根据自己的Python版本选择

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

 2、将这个文件存放到python安装路径下的script文件夹中。如下:

3、在当前目录下,并执行安装

 pip install Twisted-20.3.0-cp38-cp38-win_amd64.whl

 3 、安装scrapy框架

pip install scrapy

 4、安装pywin32

 pip install pywin32

5、检查是否安装成功

scrapy 

 

 6、手动创建爬虫项目

scrapy startproject  项目名称

 说明:

(1)需要切换到爬虫项目中:cd 项目名称
(2)需要输入命令去创建一个爬虫任务: scrapy genspider example(爬虫任务名称) example.com(范围域名)


http://www.ppmy.cn/news/68286.html

相关文章

PBDB Data Service:Bibliographic references for fossil collections(采集记录参考书目)

Bibliographic references for fossil collections(采集记录参考书目) 描述用法参数以下参数可用于检索与通过各种条件选择的集合关联的引用您可以使用以下参数根据书目参考文献的属性筛选结果集以下参数也可用于筛选选择以下参数可用于根据所选匹配项的…

前端页面性能优化(完整归纳版)

前端页面性能优化 当优化前端页面性能时,可以从多个方面入手。以下是一些常见的优化技巧,使用 Markdown 格式展示: 1. 优化资源加载 压缩和合并文件:减少请求次数,通过压缩和合并 CSS、JavaScript 文件来减小文件大…

C++数组

C数组 声明数组,注意如下的点: 元素值的类型数组名数组中的元素数 通用格式如下: typeName arrayName[arraySize]arraySize的值不能是变量,变量的值是在程序运行时设置的 数组初始化方法 一般格式如下: int yam…

10款必装IDEA开发神器

那些IDEA开发神器 1.Material Theme Ul 安装步骤 打开IDEA,点击File -> Settings。在Settings窗口中,选择Appearance & Behavior -> Appearance。在Appearance选项卡下,找到Theme并选择Material Theme Ul。点击Apply按钮,然后点…

【项目源码】采用UWB技术开发的定位系统源码,室内定位系统源码

UWB技术定位系统源码,高精度人员定位系统源码,智慧工厂人员定位系统源码,室内定位系统源码 技术架构:单体服务 硬件(UWB定位基站、卡牌) 开发语言:java 开发工具:idea 、VS Code…

C++ 内存模型

一、单独编译 1.1、常见程序结构 C鼓励程序员将组件函数放到独立的文件中,下面是一种常用的组织文件的策略,如下 头文件:包含结构声明和使用这些结构的函数的原型源代码文件:包含与结构有关的函数的代码源代码文件:包…

Kettle获取接口数据到表

kettle从接口服务获取数据 主要用到kettle输入菜单下的控件:生成记录、JSON input 查询菜单下的控件:HTTP client 输出菜单下的控件:表输出、插入/更新 生成记录:设置一个变量,用这个变量来保存要去访问接口的URL地址…

英语基础句型之旅:从基础到高级

英语句型之旅:从基础到高级 一、起步:掌握英语基础句型 (Getting Started: Mastering Basic English Sentence Structures)1.1 英语句子的基本构成 (The Basic Components of English Sentences)1.2 五大基本句型解析 (Analysis of the Five Basic Sente…