爬虫案例-亚马逊反爬流程分析梳理(验证码突破)(x-amz-captcha)

news/2024/9/23 0:44:31/
总体概览:核心主要是需要突破该网站的验证码,成功后会返回我们需要的参数后再去请求一个中间页(类似在后台注册一个session),最后需要注意一下 IP 是不能随意切换的

主要难点:

1、梳理整体反爬流程

2、验证码识别

3、IP识别

难度:三颗星(适合小白、初级跟中级学习)

目标网址:aHR0cHM6Ly93d3cuYW1hem9uLmNvbS9kcC9CMENTMjhaTFdT

备注:目前是有两套方案的(1、直接正面突破验证码 2、通过修改指纹来绕过验证码),本文先讲如何直接正面突破验证码,方案2后面有机会再讲

废话不多说,先上流程图

======= 正文开始 =======

首先打开浏览器自带的无痕模式,输入网址发现直接就弹出验证码了

打开抓包软件,尝试随机输入一个数字,我这里输入的是1,发现是明文,这就简单多了

搜索一下 amzn 与 amzn-r 发现这 amzn 很明显的是验证码的标识,field-keywords是我们输入验证码的结果

这次我们再输入正确的验证码:

发现对接口https://www.amazon.com/errors/validateCaptcha 进行请求,得到了

x-amz-captcha-1 与 x-amz-captcha-2 两个参数,同时会自动条状到我们最开始输入的那个产品详情页中。

在这个时候发现此时已经生成了大部分的参数了,但经过测试发现缺少 session-token 时,这几个ID很快就会被封掉不能继续使用。

接下来继续观察发现 session-token 在这个位置生成了出来,不难看出这个接口是疑似用来注册session-token 的,这里就是在开头说的请求一个中间页来注册一个session

携带这些参数再次请求的时候发现response已经没有cookie返回了,这个时候说明cookie的状态是比较好的,该网站有一个类似Cookie纠错的功能,当cookie没有特别满足他的要求的时候就会返回一些新的参数过来,此时我们只需要更新一下请求就可以了

最后需要注意一点就是 IP 是不能随意更换的,在生成x-amz-captcha-1 与 x-amz-captcha-2 这两个参数时的 IP 是绑定的,当IP更换了去请求就会失败,对比一下

同时,当再次使用那个IP时就会出现请求被拒绝,也就是被识别到为爬虫程序,被封禁

验证码识别部分:

最后还有一个 OE 文件 ,很明显的鼠标轨迹识别,非常有可能在后续会被用于反爬的识别

整体的思路到这基本上就结束了,后续可能会再写一遍如何实现同时实现高并发的稳定爬取该网站

有兴趣,需要源码的可以私聊我


http://www.ppmy.cn/news/1463896.html

相关文章

第53期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

oracle.jdbc.OracleDatabaseException: ORA-00911: 无效字符

先吐槽一句,oracle 真坑啊! 一个很正常的sql 语句一直报 ORA-00911: 无效字符 ,拿到数据库去执行一点问题没有,一运行代码就报错,然后一个字符一个字符的对比,竟然是因为sql 结尾的一个 ";" 导致…

rk3568_mutex

文章目录 前言1、什么是mutex?1.1mutex互斥体API函数二、实验2.1实验目的2.2源码2.3结果图前言 本文记录的是rk3568开发板基础上做的mutex实验 1、什么是mutex? mutex是互斥体,它是比信号量semaphore更加专业的机制。 在我们编写Linux驱动的时候遇到需要互斥的地方建议使用…

在VS Code中进行Java的单元测试

在VS Code中可以使用 Test Runner for Java扩展进行Java的测试执行和调试。 Test Runner for Java的功能 Test Runner for Java 结合 Language Support for Java by Red Hat 和 Debugger for Java这两个插件提供如下功能: 运行测试: Test Runner for …

微信小程序自定义头部

1.在对应界面的json文件,将navigationStyle属性设置为“custom” "navigationStyle":"custom" 2. 状态栏的高度可以通过 wx.getSystemInfo() 获取。 胶囊按钮的信息可以通过 wx.getMenuButtonBoundingClientRect() 获取。 导航栏高度状态栏…

python使用多种方法计算列表元素平方的技巧

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、使用列表推导式进行元素平方 二、使用map函数进行元素平方 三、循环遍历列表进行元素平…

二叉树——基础知识详解

前言: 经过前面的学习,我们接下来要开始二叉树的学习,因二叉树有难度,为了方便讲解以及各位的理解,本节知识会分成不同的小节进行学习,在本阶段只学习初阶的二叉树(堆,二叉数基本知识…

基于springboot实现华府便利店信息管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现华府便利店信息管理系统演示 摘要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本华府便利店信息管理系统就是在这样的大环境下诞生&#xff…