第二十七天:Scrapy 框架-模拟登录

embedded/2025/3/6 3:34:44/

文章目录

一、Scrapy-Request和Response(请求和响应)

二、Request对象

三、请求子类 FormRequest对象

1. 请求使用示例

四、响应对象

五、模拟登录

一、Scrapy-Request和Response(请求和响应)

Scrapy的Request和Response对象用于爬网网站。

通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。

sequenceDiagram
爬虫->>Request: 创建
Request->>Response:获取下载数据
Response->>爬虫:数据

二、Request对象

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response

参数

  • url(string) - 此请求的网址

  • callback(callable) - 将使用此请求的响应(一旦下载)作为其第一个参数调用的函数。有关更多信息,请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调,parse()将使用spider的 方法。请注意,如果在处理期间引发异常,则会调用errback。

  • method(string) - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等,且保证字符串大写

  • meta(dict) - 属性的初始值Request.meta,在不同的请求之间传递数据使用

  • body(str或unicode) - 请求体。如果unicode传递了a,那么它被编码为 str使用传递的编码(默认为utf-8)。如果 body没有给出,则存储一个空字符串。不管这个参数的类型,存储的最终值将是一个str(不会是unicode或None)。

  • headers(dict) - 这个请求的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)。如果 None作为值传递,则不会发送HTTP头.一般不需要

  • encoding: 使用默认的 'utf-8' 就行。

  • cookie(dict或list) - 请求cookie。这些可以以两种形式发送。

    • 使用dict:
    • request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)

    • 使用列表:
    •  request_with_cookies = Request(url="http://www.example.com",cookies=[{'name': 'currency','value': 'USD','domain': 'example.com','path': '/currency'}])

      后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用

将附加数据传递给回调函数

请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数

def parse_page1(self, response):item = MyItem()item['main_url'] = response.urlrequest = scrapy.Request("http://www.example.com/some_page.html",callback=self.parse_page2)request.meta['item'] = itemreturn request
​
def parse_page2(self, response):item = response.meta['item']item['other_url'] = response.urlreturn item

三、请求子类 FormRequest对象

FormRequest类扩展了Request具有处理HTML表单的功能的基础。它使用lxml.html表单 从Response对象的表单数据预填充表单字段

class scrapy.http.FormRequest(url[, formdata, ...])

本FormRequest类增加了新的构造函数的参数。其余的参数与Request类相同,这里没有记录

  • 参数:formdata(元组的dict或iterable) - 是一个包含HTML Form数据的字典(或(key,value)元组的迭代),它将被url编码并分配给请求的主体。

该FormRequest对象支持除标准以下类方法Request的方法:

classmethod from_response(response[, formname=None, formid=None, formnumber=0, formdata=None, formxpath=None, formcss=None, clickdata=None, dont_click=False, ...])

返回一个新FormRequest对象,其中的表单字段值已预先<form>填充在给定响应中包含的HTML 元素中.

参数:

  • response(Responseobject) - 包含将用于预填充表单字段的HTML表单的响应
  • formname(string) - 如果给定,将使用name属性设置为此值的形式
  • formid(string) - 如果给定,将使用id属性设置为此值的形式
  • formxpath(string) - 如果给定,将使用匹配xpath的第一个表单
  • formcss(string) - 如果给定,将使用匹配css选择器的第一个形式
  • formnumber(integer) - 当响应包含多个表单时要使用的表单的数量。第一个(也是默认)是0
  • formdata(dict) - 要在表单数据中覆盖的字段。如果响应元素中已存在字段,则其值将被在此参数中传递的值覆盖
  • clickdata(dict) - 查找控件被点击的属性。如果没有提供,表单数据将被提交,模拟第一个可点击元素的点击。除了html属性,控件可以通过其相对于表单中其他提交表输入的基于零的索引,通过nr属性来标识
  • dont_click(boolean) - 如果为True,表单数据将在不点击任何元素的情况下提交

1. 请求使用示例

使用FormRequest通过HTTP POST发送数据

如果你想在你的爬虫中模拟HTML表单POST并发送几个键值字段,你可以返回一个FormRequest对象(从你的爬虫)像这样:

return [FormRequest(url="http://www.example.com/post/action",formdata={'name': 'John Doe', 'age': '27'},callback=self.after_post)]

使用FormRequest.from_response()来模拟用户登录

网站通常通过元素(例如会话相关数据或认证令牌(用于登录页面))提供预填充的表单字段。进行剪贴时,您需要自动预填充这些字段,并且只覆盖其中的一些,例如用户名和密码。您可以使用 此作业的方法。这里有一个使用它的爬虫示例:

input type="hidden"> FormRequest.from_response()import scrapy
​
class LoginSpider(scrapy.Spider):name = 'example.com'start_urls = ['http://www.example.com/users/login.php']
​def parse(self, response):return scrapy.FormRequest.from_response(response,formdata={'username': 'john', 'password': 'secret'},callback=self.after_login)
​def after_login(self, response):# check login succeed before going onif "authentication failed" in response.body:self.logger.error("Login failed")return
​# continue scraping with authenticated session...

四、响应对象

class scrapy.http.Response(url[, status=200, headers=None, body=b'', flags=None, request=None])

一个Response对象表示的HTTP响应,这通常是下载(由下载),并供给到爬虫进行处理

参数:

  • url(string) - 此响应的URL
  • status(integer) - 响应的HTTP状态。默认为200
  • headers(dict) - 这个响应的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)
  • body(str) - 响应体。它必须是str,而不是unicode,除非你使用一个编码感知响应子类,如 TextResponse
  • flags(list) - 是一个包含属性初始值的 Response.flags列表。如果给定,列表将被浅复制
  • request(Requestobject) - 属性的初始值Response.request。这代表Request生成此响应

五、模拟登录

用的函数:

  • start_requests()可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求
  • Request()get请求,可以设置,url、cookie、回调函数
  • FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其他参数,cookie、url、表单内容等
  • yield Request()可以将一个新的请求返回给爬虫执行

在发送请求时cookie的操作,

  • meta={'cookiejar':1}表示开启cookie记录,首次请求时写在Request()里
  • meta={'cookiejar':response.meta['cookiejar']}表示使用上一次response的cookie,写在FormRequest.from_response()里post授权
  • meta={'cookiejar':True}表示使用授权后的cookie访问需要登录查看的页面

获取Scrapy框架Cookies

样例代码

start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求

在发送请求时cookie的操作

meta={'cookiejar':1}表示开启cookie记录,首次请求时写在Request()里

meta={'cookiejar':response.meta['cookiejar']}表示使用上一次response的cookie,写在Request里post授权

import scrapy
from scrapy import Request
from scrapy import FormRequest
​
​
class SxtSpiderSpider(scrapy.Spider):name = 'sxt1'allowed_domains = ['sxt.cn']
​def start_requests(self):return [Request('http://www.sxt.cn/index/login/login.html', meta={'cookiejar': 1}, callback=self.parse)]
​def parse(self, response):formdata = {"user": "17703181473", "password": "123456"}return FormRequest(formdata=formdata,                                        url='http://www.sxt.cn/index/login/login.html',                                        meta={'cookiejar': response.meta['cookiejar']},                                        callback=self.login_after)
​def login_after(self, response):yield scrapy.Request('http://www.sxt.cn/index/user.html',meta={"cookiejar": response.meta['cookiejar']},callback=self.next)def next(self,response):print(response.text)

http://www.ppmy.cn/embedded/170376.html

相关文章

DeepSeek 开源周(2025/0224-0228)进度全分析:技术亮点、调用与编程及潜在影响

DeepSeek 技术开源周期间所有开放下载资源的目录及简要说明: 1. FlashMLA 描述:针对 Hopper GPU 优化的高效 MLA 解码内核,专为处理可变长度序列设计,显著提升大语言模型(LLM)的解码效率。性能:内存受限配置下可达 3000 GB/s 带宽,计算受限配置下可达 580 TFLOPS 算力(…

物联网桥梁监测设备集成GPS和红外

桥梁监测设备是确保桥梁结构安全、延长使用寿命的重要工具。集成 GPS 和 红外 技术的桥梁监测设备&#xff0c;可以提供更全面的监测功能&#xff0c;包括结构变形、温度变化、环境因素等。以下是集成GPS和红外的桥梁监测设备的顶级功能&#xff1a; 一、核心功能 集成GPS和红…

FFmpeg 命令详解(完整详细版)

FFmpeg 是一个强大的多媒体处理工具&#xff0c;支持音视频转换、剪辑、合并、滤镜、压缩等操作。本文整理了 常见 FFmpeg 命令&#xff0c;并配有 详细说明&#xff0c;帮助你高效使用 FFmpeg。 1. FFmpeg 基础命令 1.1 查看 FFmpeg 版本 ffmpeg -version查看 FFmpeg 版本、…

23种设计模式之《备忘录模式(Memento)》在c#中的应用及理解

程序设计中的主要设计模式通常分为三大类&#xff0c;共23种&#xff1a; 1. 创建型模式&#xff08;Creational Patterns&#xff09; 单例模式&#xff08;Singleton&#xff09;&#xff1a;确保一个类只有一个实例&#xff0c;并提供全局访问点。 工厂方法模式&#xff0…

国科大——数据挖掘(0812课程)——考试真题

前沿&#xff1a; 此文章记录了国科大数据挖掘&#xff08;0812&#xff09;课程的考试真题。 注&#xff1a; 考试可以携带计算器&#xff0c;毕竟某些题需要计算log&#xff0c;比如&#xff1a;决策树等。 2016年 1. Suppose a hospital tested the age and body fat for …

ECharts中yAxisIndex的作用

yAxisIndex 通常在数据可视化库&#xff08;如 ECharts 等&#xff09;中使用&#xff0c;用于指定系列数据对应的 Y 轴索引。下面为你详细介绍其作用和使用场景&#xff1a; 作用 在一个图表中&#xff0c;可能会有多个 Y 轴&#xff08;比如双 Y 轴图表&#xff09;&#x…

数据库操作命令详解:CREATE、ALTER、DROP 的使用与实践

引言​ 数据库是存储和管理数据的核心工具&#xff0c;而 ​DDL&#xff08;Data Definition Language&#xff0c;数据定义语言&#xff09;​​ 是构建和调整数据库结构的基石。本文将通过实际示例&#xff0c;详细讲解 CREATE&#xff08;创建&#xff09;、ALTER&#xff0…

RAG检索增强生成(Retrieval-Augmented Generation)介绍(双模态架构:检索子系统、生成子系统)实现知识获取与内容生成的协同

文章目录 增强生成&#xff08;RAG&#xff09;技术&#xff1a;原理、架构与前沿实践1. RAG技术架构剖析1.1 技术融合范式- **检索子系统**- **生成子系统** 2. 核心组件与工作流程2.1 数据预处理管线- **多粒度分块策略**- **特征增强技术** 2.2 混合检索引擎 3. 性能优化关键…