Python爬虫--Scrapy框架安装

ops/2024/10/19 3:31:12/

Scrapy框架安装 ,

Scrapy 是 Python 领域专业的爬虫开发框架,已经完成爬虫程序的大部分通用工具

它使用了 Twisted 异步网络库来处理网络通讯。整体架构大致如下

images

第一步:挂小灰机或者将要安装的文件下载到本地

Scrapy 框架安装踩坑中

为什么要挂小灰机呢??

因为有些扩展包需要科学上网才能下载,不挂的话会出错

如果确实挂不了的话,可以考虑才其他地方下载安装包到本地,

然后在本地进行安装。


第二步:升级pip

pip 是一个现代的,通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。

在安装扩展包的时候,可会因为 pip 版本过低安装不了

例如出现如下错误

images


这个时候我们可以考虑先升级 pip ,然后再安装扩展包

升级命令:

python -m pip install --upgrade pip

这样就成功升级了

images


第三步:安装wheel

Python的第一个主流打包格式是 .egg 文件,

现在大家庭中又有了一个叫做 Wheel(*.whl) 的新成员。

wheel 被设计成包含PEP 376兼容安装(一种非常接近于磁盘上的格式)的所有文件。

你可以这么理解,source是源代码,如果包含C++的化需要编译,

而 wheel 是编译后的,可以直接安装。 pip 默认的也是先下载 wheel 文件安装,没有的话再源码编译安装


安装 wheel 的话,我们采用网络安装,不需要挂小灰机

出现这个就表示已经安装好了

images


第四步:安装lxml

lxml 是 python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,

它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索


现在来安装 lxml ,我们采用下载安装,就是将安装包下载到本地进行安装

打开这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

然后找到 lxml 下载

这里 cp37 表示 python 版本 ,win_amd64 表示 Windows 位数是 64 位的

下载对应的版本就好了

images


然后下载到了 D 盘 ,Python37 文件夹下了

然后进入这个文件夹下安装即可

命令:

pip install lxml-4.4.1-cp37-cp37m-win_amd64.whl  #  pip install 文件全名

这样就安装成功了

images


第五步:安装Twisted

Twisted 介绍:


1.Twisted 是用 Python 实现的基于事件驱动的网络引擎框架。 Twisted 诞生于2000年初,2.在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。3.Twisted 的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,4.他们迫切地需要一个可扩展性高、基于事件驱动、跨平台的网络开发框架,5.为此他们决定自己实现一个,并从那些之前的游戏和网络应用程序的开发者中学习,汲取他们的经验教训。6.Twisted 支持许多常见的传输及应用层协议,7.包括 TCP 、 UDP 、 SSL/TLS 、HTTP 、IMAP 、SSH 、IRC 以及 FTP 。8.就像python一样,Twisted 也具有“内置电池”(batteries-included)的特点。9.Twisted对于其支持的所有协议都带有客户端和服务器实现,10.同时附带有基于命令行的工具,使得配置和部署产品级的 Twisted 应用变得非常方便。

安装 Twisted ,我们也使用本地安装的方法

还是这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

还是跟之前一样,找到对应的版本下载

然后安装

这样就安装成功了,如果这样都安装不了的话,建议挂个小灰机再安装

images


scrapy">第六步:安装Scrapy

前面的准备工作完成了

最后一步就是安装 Scrapy 了

这一步无需挂小灰机,如果确实怕出错,挂上也无所谓

命令:

pip install scrapy

出现这个就表示成功安装了

images


如果不确定是否安装成功,可以输入 scrapy

如果能够显示出信息,就说明成功了

images


总结:

到这里 Scrapy 就安装结束了

接下来开启新的爬虫之旅了!!


http://www.ppmy.cn/ops/24396.html

相关文章

IDEA 创建Servlet-HelloWorldServlet

servlet 1.创建空项目2.配置web项目3.配置Tomcat4.加载Tomcat包5.创建HelloWorldServlet类6.配置web.xml7.运行get与post请求 1.创建空项目 2.配置web项目 3.配置Tomcat 4.加载Tomcat包 5.创建HelloWorldServlet类 public class controller extends HttpServlet {Override//get…

Double 4 VR智能互动系统在法律法庭上的模拟演练教学

随着科技的不断发展,虚拟现实技术(VR)在各个领域的应用也越来越广泛。而在法律领域,VR技术也被用于模拟法庭审判,让学习者能够在虚拟环境中亲身体验法庭审判的全过程,从而提高其法律意识和法律素养。 为了…

深入理解Python多进程:从基础到实战

title: 深入理解Python多进程:从基础到实战 date: 2024/4/29 20:49:41 updated: 2024/4/29 20:49:41 categories: 后端开发 tags: 并发编程多进程管理错误处理资源调度性能优化异步编程Python并发库 引言 在Python编程中,多进程是一种重要的并发编程…

网盘——进入文件夹

本文主要讲解网盘的文件操作中进入文件夹的部分,具体实现步骤如下: 1、具体步骤如下: A、客户端发送进入文件夹的请求(该请求包含目录信息以及要进入的文件夹名字) B、服务器收到该请求之后,服务器首先判…

JAVA内部类

内部类 Java内部类(Inner Class)是定义在另一个类(外部类)内部的一个类。这种嵌套类的定义允许更紧密的代码组织和更高的封装性。内部类可以访问其外部类的所有成员,包括私有成员,反之则不然。内部类可以有…

前端实现导入Excel进行数据展示、导出

需求 一个 excel 文档 需要对文档里面的数据进行筛选拆分重组 由于数据量巨大 后端又抽不出来手 于是使用纯前端解决方案 解决思路 前端导入excel 把 excel 的数据解析为 json 格式 对数据进行相应操作后 重新导出为新 excel 虽笨但有效 第一步 导入excel 该方案需引…

Docker(Docker的安装和介绍,常用命令,镜像制作,服务编排,docker私服)

目录 一、简介 1. docker简介 1 什么是docker 2 容器和虚拟机对比 2. 安装docker 1 docker相关概念 2 安装docker 1 安装docker 2 设置注册中心(仓库) 3. 小结 二、常用命令【重点】 1. 服务管理 2. 镜像管理 1 语法说明 2 使用练习 3. 容器管理 1 容器介绍 2…

c++判断一个数是否是2或3的n次方

判断一个数是否是2的n次方: bool fun(int n){return n>0&&(n&(-n))n; } 判断一个数是否是3的n次方: //方法1 如果这个数能被3整除,且最后是1,则一定是3的n次方 bool fun(int n){while(n&&n%30){n/3;}re…