scrapy快速上手

news/2024/9/28 23:28:31/

安装

        除了scrapy本身还要安装两个库 

pip install scrapy
pip install pywin32
pip install wheel

 创建项目

在要创建项目的地方打开powershell

scrapy startproject 项目名

我们得到这样的项目结构,功能如下 

  1.         scrapy.cfg                项目的主配置信息
  2.         items.py                   设置项目模板,用于结构化数据
  3.         piplines.py                数据的持久化处理
  4.         seting                        配置文件
  5.         spiders                       爬虫文件目录

配置信息

seeting.py下修改是否支持数据爬取修改为允许,true不允许,false允许

  

 将这一行的内容改为false

配置浏览器请求头中的user-agent

根据网站反爬措施制定其他的配置 

配置模板

        items.py中照着给出的格式配置自己的数据模板

        变量名 = scrapy.Field()

创建爬虫文件

指定爬取目标

 回到powershell,

cd 项目名
scrapy genspider 爬虫文件名 爬取目标网址

得到这样一个文件

import scrapyclass QuotesSpider(scrapy.Spider):# 爬虫名name = "quotes"allowed_domains = ["quotes.toscrape.com"]# 爬取目标start_urls = ["https://quotes.toscrape.com/"]# 爬取动作def parse(self, response):

寻找元素和内容

在parse方法中定义爬取动作 ,参数列表中的response是爬取目标的响应对象。

具有如下属性

  1. url:响应的 URL 地址。
  2. status:HTTP 状态码,如 200 表示成功,404 表示未找到等。
  3. headers:响应的 HTTP 头部信息,是一个类似字典的对象。
  4. body:响应体,即服务器返回的内容,是一个字节串(bytes)。
  5. text:响应体的字符串形式,如果响应的 Content-Type 是文本类型(如 HTML),则可以直接使用此属性获取内容。
  6. encoding:响应的编码方式,用于将 body 转换为 text
  7. meta:传递给响应的元数据信息,常用于在请求和响应之间传递数据。
  8. request:触发此响应的请求(Request)对象。

具有如下方法

  1. xpath():用xpass寻找元素
  2. css():用css寻找元素
  3. urljoin():构造网址
  4. get() 和 getall(): 这两个方法用于从SelectorSelectorList对象中提取数据。get()方法返回第一个匹配节点的文本或属性值(如果指定了属性),而getall()方法返回所有匹配节点的文本或属性值列表。
  5. extract() 和 extract_first(): 这两个方法是旧版本Scrapy中用于提取数据的方法,但在新版本中,推荐使用get()getall()方法。extract()方法返回所有匹配节点的文本列表,而extract_first()方法返回第一个匹配节点的文本。
  6. re(regex, replace_entities=True) 和 re_first(regex, default=None, replace_entities=True): 这两个方法允许你使用正则表达式来提取匹配的数据。re()方法返回所有匹配的字符串列表,而re_first()方法返回第一个匹配的字符串。
  7. attrib: 这是一个属性字典,用于访问当前节点的属性。如果当前对象是SelectorList,则attrib将返回列表中第一个元素的属性字典。

        使用xpath和css方法寻找元素的时候如果返回多个值的时候添加.extract()返回的是str类型列表,单个值则为.extract_first(),返回的是str类型


text = q.xpath(".//span[@class='text']/text()").extract_first()
author = q.xpath('.//span/small[@class="author"]/text()').extract_first()   
tags = q.xpath('.//div[@class="tags"]/a[@class="tag"]').extract()

        这样找到的元素可以直接被bs4解析并获取值。

将结果组成模板

        首先导入item,并在要组成模板的位置实例化一个ScrapydemoItem对象

from scrapydemo.items import ScrapydemoItemitem = ScrapydemoItem()#在你要组成模板的位置写

         为实例属性赋值

item["text"] = text
item["author"] = author
item["tags"] = tags

        结束爬虫        yield类似return,但是可以循环返回

yield item

         每返回一个item会写入一条数据

        当然也可以不返回item,获取到下一个页面的url即可继续访问下一个页面

        # 获取访问下一页地址next = response.css('.pager .next .a::attr(href)').extract_first()  # 两个冒号获取属性值# 合成绝对路径url = response.urljoin(next)# 访问请求的回调函数# 第三个参数是关闭地址过滤yield scrapy.Request(url=url,callback=self.parse,dont_filter=True)

         这样就可以调用自己继续访问下一页了

创建启动项

创建main.py 

from scrapy import cmdlinecmdline.execute("scrapy crawl quotes -o quotes.json".split())
#                scrapy crawl 爬虫名  -o代表文件流  创建quotes.json这个文件

        也可以在cmd或powershell中输入字符串中的值 

爬取scrapy官方靶站的示例代码:

import scrapyfrom scrapydemo.items import ScrapydemoItemclass QuotesSpider(scrapy.Spider):# 爬虫名name = "quotes"allowed_domains = ["quotes.toscrape.com"]# 爬取目标start_urls = ["https://quotes.toscrape.com/"]# 爬取动作def parse(self, response):# 获取页面中的元素返回列表quote = response.xpath('//div[@class="quote"]')# 遍历列表每个元素for q in quote:text = q.xpath(".//span[@class='text']/text()").extract_first()    # 获取内容author = q.xpath('.//span/small[@class="author"]/text()').extract_first()    # 获取作者tags = q.xpath('.//div[@class="tags"]/a[@class="tag"]').extract()    # 获取标签# 实例化item = ScrapydemoItem()# 为实例属性赋值item["text"] = textitem["author"] = authoritem["tags"] = tags# 返回数据,相当于return,但是可以循环返回。yield item# 获取访问下一页地址next = response.css('.pager .next .a::attr(href)').extract_first()  # 两个冒号获取属性值# 合成绝对路径url = response.urljoin(next)# 访问请求的回调函数# 第三个参数是关闭地址过滤yield scrapy.Request(url=url,callback=self.parse,dont_filter=True)


http://www.ppmy.cn/news/1531655.html

相关文章

nvm以及npm源配置

配置 NVM 和 NPM 使用镜像源 接上一篇。国内使用会遇到网络连接问题。为了解决这个问题,我们可以配置 NVM 和 NPM 使用腾讯的源。 配置 NVM 源 首先,我们需要配置 NVM 源。可以使用以下命令: export NVM_NODEJS_ORG_MIRRORhttps://mirrors.…

基于STM32的智能家居交互终端:使用FreeRTOS与MQTT协议的流程设计

一、项目概述 简要介绍项目的目标和用途 随着智能家居的普及,家庭智能交互终端成为提升居住体验的重要设备。本文将介绍一个基于STM32的家庭智能交互终端的设计与实现,该终端能够通过触摸屏、语音识别和传感器数据采集等功能,提供家庭环境监…

【工具-VMware Workstation-ubuntu】

VMware Workstation-ubuntu ■ ubuntu 和 win11 共享文件夹出现在/mnt/hgfs 目录下。■■■■ ■ ubuntu 和 win11 共享文件夹出现在/mnt/hgfs 目录下。 执行 vmware-hgfsclient 显示有共享文件夹。ls 却查看不到 执行 sudo vmhgfs-fuse .host:/ /mnt/hgfs -o nonempty -o all…

初识C#(四)- 函数或方法

函数就是一个外挂的方法,以便我们自己自定义某个功能 文章目录 前言一、函数的使用1.1 函数的定义和使用1.2 函数参数分为(形参和实参)1.3 函数的返回值 二、函数的递归2.1 调用自身的函数就是递归函数 三、枚举类型3.1 枚举类型的声明与赋值 总结 前言 本篇笔记重…

时间序列分析算法

目录 1.背景介绍及应用2.时间序列核心概念与联系3.核心算法原理、步骤、数学模型公式详解3.1直接方法3.1.1 移动平均3.1.2 累计和 3.2 差分方法3.2.1 首差3.2.2 二差 3.3指数方法3.3.1 指数移动平均3.3.2指数差分 4.时间序列优缺点5.说明5.1时间序列分析与其他预测方法的区别在…

短视频矩阵管理系统贴牌 源码开发

抖音账号矩阵的开发核心维度包括: 多账号管理开发维度:通过运用不同类型的账号矩阵,可以实现统一且便捷的管理。目前,矩阵系统支持管理抖音、快手、视频号,b站的账号,未来计划加入小红书,tk等等的账号管理。 矩阵账号…

HTML|基础|创建一个猫咪信息表单的最佳实践指南

创建一个猫咪信息表单的最佳实践指南 本文将指导你如何创建一个简单而有效的猫咪信息表单。我们将通过 HTML 代码的实例&#xff0c;介绍关键元素和最佳实践&#xff0c;确保表单既易于使用又符合标准。 0. 代码全貌 <!DOCTYPE html> <html lang"en">&…

React 有哪些生命周期

React组件的生命周期可以分为三个主要阶段:挂载(Mounting)、更新(Updating)和卸载(Unmounting)。每个阶段都伴随着特定的生命周期方法,允许开发者在组件的不同阶段执行代码。以下是React生命周期的详细概述: 一、挂载阶段(Mounting) constructor(props): 组件的构造…