使用 Selenium 和 Requests 自动化获取动态 Referer 和 Sign 的完整指南

ops/2025/3/2 1:28:32/

在现代网络爬虫和自动化任务中,动态生成的参数(如 Referer 和 Sign)常常是绕过反爬虫机制的关键。本文将详细介绍如何使用 Python 的 Selenium 和 Requests 库,从目标网页中提取动态 Referer 和 Sign,并完成后续的请求和解密操作。


1. 背景介绍

1.1 什么是动态 Referer 和 Sign

  • Referer:HTTP 请求头的一部分,用于指示请求是从哪个页面发起的。某些网站会检查 Referer 是否合法,以防止跨站请求伪造(CSRF)或未经授权的访问。

  • Sign:一种动态生成的参数,通常用于验证请求的合法性。Sign 可能是通过 JavaScript 动态生成的,或者基于某种规则(如时间戳、随机数等)生成。

1.2 为什么需要动态获取这些参数?

  • 反爬虫机制:许多网站会使用动态参数来防止自动化脚本的访问。

  • 请求合法性:某些 API 或接口要求提供正确的 Referer 和 Sign,否则会返回错误。


2. 实现思路

我们的目标是:

  1. 使用 Selenium 打开目标网页,提取动态 Referer

  2. 从页面中提取动态 Sign

  3. 使用 Requests 发送请求,获取加密的 URL。

  4. 使用 Selenium 执行 JavaScript 解密逻辑,获取最终的 URL。


3. 实现步骤

3.1 安装依赖

首先,确保安装了以下 Python 库:

pip install requests selenium beautifulsoup4

3.2 提取动态 Referer

我们使用 Selenium 打开目标网页,并通过 BeautifulSoup 解析页面内容,提取 iframe 的 src 属性作为 Referer

from selenium import webdriver
from bs4 import BeautifulSoup
import requestsdef get_dynamic_referer():# 初始化浏览器driver = webdriver.Edge()  # 使用 Edge 浏览器driver.get("https://wwou.lanzoue.com/ib7ll2dcgiqd")  # 打开目标页面# 等待页面加载time.sleep(5)# 使用 BeautifulSoup 解析页面url = "https://wwou.lanzoue.com/ib7ll2dcgiqd"response = requests.get(url)soup = BeautifulSoup(response.text, "html.parser")# 查找 iframe 标签iframe = soup.find("iframe", class_="ifr2")if iframe and iframe.has_attr("src"):src = iframe["src"]referer = "https://wwou.lanzoue.com" + srcprint("提取到的 Referer:", referer)else:# 如果未找到 iframe,使用 Selenium 动态加载iframe = driver.find_element(By.CSS_SELECTOR, "iframe.ifr2")src = iframe.get_attribute("src")referer = "https://wwou.lanzoue.com" + srcprint("提取到的 Referer:", referer)driver.quit()  # 关闭浏览器return referer

3.3 提取动态 Sign

从页面中提取 Sign,通常需要分析 JavaScript 代码或页面元素。我们可以使用正则表达式从 script 标签中提取 Sign

import redef extract_sign(referer):response = requests.get(referer)soup = BeautifulSoup(response.text, "html.parser")# 查找所有 script 标签scripts = soup.find_all("script", type="text/javascript")# 遍历 script 标签,查找 signsign = Nonefor script in scripts:if script.string and "'sign':" in script.string:match = re.search(r"'sign':'([^']+)'", script.string)if match:sign = match.group(1)breakif sign:print("提取到的 Sign:", sign)else:print("未找到 Sign")return sign

3.4 发送请求并获取加密 URL

使用提取到的 Referer 和 Sign,构造请求并发送。

def send_request(referer, sign):api_url = "https://wwou.lanzoue.com/ajaxm.php?file=205542423"payload = {"action": "downprocess","signs": "?ctdf","sign": sign,  # 使用动态 Sign"websign": "","websignkey": "VoaW","ves": 1,"kd": 1}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36","Referer": referer,  # 使用动态 Referer"Content-Type": "application/x-www-form-urlencoded"}response = requests.post(api_url, data=payload, headers=headers)return response

3.5 解密 URL

如果返回的 URL 是加密的,可以使用 Selenium 执行 JavaScript 解密逻辑。

def decrypt_url(encrypted_url):driver = webdriver.Edge()  # 使用 Edge 浏览器driver.get("about:blank")  # 打开空白页# 注入解密逻辑(替换为实际逻辑)driver.execute_script("""window.decryptFunction = function(encryptedUrl) {// 示例解密逻辑(替换为实际逻辑)return encryptedUrl.replace("encrypted_", "decrypted_");};""")# 调用解密函数decrypted_url = driver.execute_script(f"""return decryptFunction("{encrypted_url}");""")driver.quit()  # 关闭浏览器return decrypted_url

3.6 主逻辑

将以上步骤整合到主逻辑中。

try:# 获取动态 Refererreferer = get_dynamic_referer()print("Dynamic Referer:", referer)if not referer:raise ValueError("Failed to get dynamic Referer.")# 提取动态 Signsign = extract_sign(referer)if not sign:raise ValueError("Failed to extract Sign.")# 发送请求response = send_request(referer, sign)print("Status Code:", response.status_code)print("Response Content:", response.text)# 解析响应try:data = response.json()if data.get("zt") == 1 and data.get("url"):  # 检查状态和 URLencrypted_url = data["url"]print("Encrypted URL:", encrypted_url)# 解密 URLdecrypted_url = decrypt_url("https://developer-oss.lanrar.com/file/" + encrypted_url)print("Decrypted URL:", decrypted_url)else:print("Failed to get a valid URL. Error:", data.get("inf"))except requests.exceptions.JSONDecodeError:print("Failed to decode JSON. Response content:")print(response.text)
except Exception as e:print("An error occurred:", str(e))

4. 总结

通过本文的代码示例,你可以:

  1. 使用 Selenium 和 BeautifulSoup 提取动态 Referer 和 Sign

  2. 使用 Requests 发送请求并获取加密 URL。

  3. 使用 Selenium 执行 JavaScript 解密逻辑。

这种方法适用于需要处理动态参数的自动化任务,如爬虫、数据抓取等。如果你有更多问题或需要进一步的帮助,请随时联系我!


http://www.ppmy.cn/ops/162375.html

相关文章

TypeScript 与后端开发Node.js

文章目录 一、搭建 TypeScript Node.js 项目 (一)初始化项目并安装相关依赖 1、创建项目目录并初始化2、安装必要的依赖包 (二)配置 TypeScript 编译选项(如模块解析方式适合后端) 二、编写服务器代码 &a…

k8S通过代理将集群外的中间件引入集群内访问 —— 筑梦之路

背景说明 有部分中间件是跑在Kubernetes集群之外,我们希望通过service的方式来访问集群外的中间件,比如访问我们k8s集群外的elasticsearch集群。 ES节点本身又处在一个负载均衡IP:192.168.100.100 之后,但是代理的端口号是9202&am…

k8s集群3主5从高可用架构(kubeadm方式安装k8s)

关键步骤说明 环境准备阶段 系统更新:所有节点执行yum/apt update确保软件包最新时间同步:通过ntpdate time.windows.com或部署NTP服务器网络规划:明确划分Service网段(默认10.96.0.0/12)和Pod网段(如Flann…

哈工大 计算机组成原理 第三章计算机总线 笔记

3.1 总线的基本概念 一、总线的概念与必要性‌ ‌计算机组成背景‌ ‌冯诺依曼结构‌:计算机由运算器、控制器、存储器、输入设备和输出设备五大部分构成。‌现代复杂性‌:多CPU(从几个到上千个)、多样化外设(数量与种…

Go Channel 高级模式实战:超时控制与广播机制的深度解析

1. 前言 在 Go 语言的并发世界中,channel 是我们手中的一把利器,它让 goroutine 间的通信变得优雅而高效。如果你已经用 channel 实现过简单的生产者-消费者模型,或者在 select 中处理过并发任务,那么恭喜你,你已经迈…

计算机网络-面试总结

计算机网络 从输入一个URL到页面加载完成的过程 整体流程 DNS查询过程SSL四次握手HTTP 的长连接与短连接 HTTP 的 GET 和 POST 区别浏览器访问资源没有响应,怎么排查? OSI七层参考模型 TCP/IP四层参考模型比较 TCP/IP 参考模型与 OSI 参考模型 TCP三次握手&四…

Flink同步数据mysql到doris问题合集

Flink同步数据mysql到doris 官方同步流程Doris安装下载地址导入镜像启动配置 Flink-cdc安装(自制)下载地址导入镜像启动命令 启动问题修复Flink报错Could not acquire the minimum required resources.作业报错 Mysql8.0 Public Key Retrieval is not al…

Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存

Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存 目录 Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存 一、简单介绍 二、简单介绍 camera 三、安装 camera 四、简单案例实现 五、关键代码 一、简单…