如何绕过Captcha并使用OCR技术抓取数据

news/2024/11/14 5:19:28/

<a class=爬虫代理>爬虫代理" />

背景/引言

在现代的网页数据抓取中,Captcha(全自动区分计算机和人类的图灵测试)作为一种防止爬虫和恶意访问的有效措施,广泛应用于各种网站。Captcha的主要目的是区分用户是人类还是程序,因此对于爬虫技术来说,它是一种极具挑战性的障碍。为了绕过Captcha,我们可以借助OCR(Optical Character Recognition,光学字符识别)技术,从图片中识别出字符,并结合代理IP技术提高爬虫的隐蔽性,减少被封禁的风险。本文将介绍如何使用OCR技术绕过Captcha,并通过示例展示如何实现这一过程。

正文

Captcha_7">1. 绕过Captcha的常见方法

Captcha有很多种类型,包括但不限于文字验证码、滑动验证码、点击验证码和Google reCAPTCHA。针对这些类型,我们可以使用以下几种常见的绕过方法:

  • 文字验证码:使用OCR技术识别验证码中的文字字符。
  • 滑动验证码:使用自动化工具(如Selenium)模拟滑动操作,或者通过图像识别计算滑动距离。
  • 点击验证码:使用图像识别技术定位点击区域。
  • Google reCAPTCHA:使用第三方服务(如2Captcha)进行破解。

本文主要讨论如何使用OCR技术识别文字验证码

Captcha_17">2. 使用OCR技术识别文字Captcha

OCR(光学字符识别)是一种从图像中提取文字的技术。当前主流的OCR工具包括Tesseract和百度OCR等。Tesseract是一个开源的OCR引擎,支持多种语言,并且易于集成到Python中。

步骤概述

  1. 获取Captcha图片。
  2. 使用OCR识别图片中的文字。
  3. 通过代理IP抓取目标数据。
3. 实现代码

以下是具体实现代码,其中我们使用Tesseract OCR进行Captcha识别,并通过代理IP抓取数据。

环境要求

  • Python 3.x
  • requestspytesseractPillowhttpxfake_useragent

安装依赖

pip install requests pytesseract pillow httpx fake_useragent

完整代码

以大众点评为目标网站。大众点评使用了多种反爬虫措施,因此我们通过代理IP和OCR技术来尝试绕过文字Captcha,并抓取其部分公开数据(如商家信息等)。(需要注意的是,大众点评对爬虫行为检测较为严格,因此在使用时请务必遵循相关网站的使用规则和法律法规)

import requests
from PIL import Image
import pytesseract
from io import BytesIO
import httpx
from fake_useragent import UserAgent# 配置 Tesseract OCR 路径(若安装路径不同,请自行修改)
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'# 亿牛云爬虫代理>爬虫代理配置 www.16yun.cn
PROXY_HOST = "proxy.16yun.cn"
PROXY_PORT = "12345"
PROXY_USER = "your_username"
PROXY_PASS = "your_password"# 构建代理URL
proxy_url = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"# 构建请求头
ua = UserAgent()
headers = {"User-Agent": ua.random,  # 随机生成User-Agent"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.9","Cookie": "your_cookie_here",  # 在此处替换为实际获取到的Cookie
}# 下载Captcha图片
def download_captcha(captcha_url):try:response = requests.get(captcha_url, headers=headers, proxies={"http": proxy_url, "https": proxy_url}, timeout=10)if response.status_code == 200:return Image.open(BytesIO(response.content))else:print(f"下载Captcha失败,状态码: {response.status_code}")return Noneexcept Exception as e:print(f"下载Captcha时发生错误: {e}")return None# 使用OCR识别Captcha
def ocr_captcha(image):try:captcha_text = pytesseract.image_to_string(image, lang='eng').strip()print(f"OCR识别结果: {captcha_text}")return captcha_textexcept Exception as e:print(f"OCR识别时发生错误: {e}")return ""# 抓取大众点评的商家信息
def fetch_dianping_data(city_url):try:# 使用httpx进行请求with httpx.Client(proxies={"http://": proxy_url, "https://": proxy_url}, headers=headers) as client:response = client.get(city_url)if response.status_code == 200:print("数据抓取成功!")print(response.text[:500])  # 打印部分抓取的数据else:print(f"数据抓取失败,状态码: {response.status_code}")except Exception as e:print(f"抓取数据时发生错误: {e}")# 示例调用
# 大众点评Captcha页面的URL示例(可根据实际需求调整)
captcha_url = "https://www.dianping.com/captcha"  # 示例地址,需替换为实际Captcha地址
# 大众点评商家列表页面的URL(以北京美食为例)
city_url = "https://www.dianping.com/beijing/food"  # 可以修改为不同城市和类别的URL# 尝试直接访问商家列表页面,如果遇到Captcha则需要处理
fetch_dianping_data(city_url)
代码解析
  1. Captcha下载与OCR识别
    • download_captcha函数用于下载Captcha图片,并使用Pillow库进行处理。
    • ocr_captcha函数利用Tesseract OCR对下载的Captcha图片进行文字识别。
  2. 代理IP配置
    • 使用爬虫代理>爬虫代理的域名、端口、用户名和密码进行代理设置,构建代理URL。
  3. User-Agent与请求头设置
    • 使用fake_useragent库生成随机User-Agent,避免被服务器检测为爬虫
  4. 数据抓取与结果处理
    • 通过httpx库发送带有Captcha识别结果的POST请求,抓取目标页面的数据。

实例

假设我们要抓取一个需要输入文字Captcha的网站,Captcha的URL为https://example.com/captcha,目标页面的URL为https://example.com/target。通过上述代码,我们可以自动识别Captcha并抓取数据。

结论

Captcha是网站对抗自动化爬虫的常见手段,但通过使用OCR技术,我们可以在一定程度上绕过文字类型的Captcha,并成功抓取数据。本文介绍了使用Tesseract OCR进行Captcha识别,并结合代理IP技术,提升了爬虫的隐蔽性和稳定性。然而,需要注意的是,OCR的准确性会受到Captcha图片质量和复杂度的影响,较为复杂的Captcha可能需要更高级的图像处理和识别技术。此外,绕过Captcha可能涉及法律和道德问题,使用时应遵循相关网站的使用规则,并用于合法场景。


http://www.ppmy.cn/news/1546845.html

相关文章

交友问题 | 动态规划

描述 如果有n个人&#xff0c;每个人都可以保持单身或与其他人结成一对。每个人只能找一个对象。求总共有多少种保持单身或结对的方式。用动态规划求解。 输入 输入第一行t表示测试用例的数量 对于每一个测试用例, 输入一个整数n表示人数1<n<18 输出 针对每个测试用…

java版嘎嘎快充汽车单车充电系统源码系统jeecgboot

汽车使用云快充1.6 1.5协议&#xff0c;单车用的铁塔协议 前端uniapp、后端jeecgbootvue2

(蓝桥杯C/C++)——动态规划(DP)

目录 一、线性DP 1.DP(动态规划)简介 2.动态规划的分析步骤 3.例题讲解 二、二维DP 1.二维DP简介 2.选数异或 三、最长上升子序列LIS 1.LIS简介 2.例题讲解 四、最长公共子序列LCS 1.最长公共子序列 2.最长公共子序列 2.求出具体子序列 一、线性DP 1.DP(动态规划)…

内存大小的单位转换

计算机中内存大小的单位转换通常是按照以下规则进行的&#xff1a; 基本单位 1 字节 (Byte) 8 位 (bit) 常见的内存单位及转换关系 1 字节 (Byte) 8 位 (bit)1 千字节 (KB) 1,024 字节 (B)1 兆字节 (MB) 1,024 千字节 (KB) 1,024 * 1,024 字节 (B)1 吉字节 (GB) 1,02…

浅谈QT用法

一、基本介绍 C 是一种通用的、静态类型的、大小写敏感的、自由格式的编程语言&#xff0c;支持过程化编程、面向对象编程和泛型编程。它最初由 Bjarne Stroustrup 在 1979 年在贝尔实验室开始开发&#xff0c;目的是扩展和改进 C 语言。 Qt 是一个跨平台的 C 应用程序框架&am…

1小时构建Vue3知识体系之vue的生命周期函数

本文转载自&#xff1a;https://fangcaicoding.cn/course/12/63 大家好&#xff01;我是方才&#xff0c;目前是8人后端研发团队的负责人&#xff0c;拥有6年后端经验&3年团队管理经验。 系统学习践行者&#xff01;近期在系统化输出前端入门相关技术文章&#xff0c;期望能…

抽象工厂模式详解

1. 引言 1.1 设计模式概述 设计模式&#xff08;Design Patterns&#xff09;是软件开发中解决常见问题的一种最佳实践。它们通过总结经验&#xff0c;提供了一套被验证有效的代码结构和设计原则&#xff0c;帮助开发者提高代码的可维护性、可重用性和可扩展性。 设计模式主…

重学 Android 自定义 View 系列:动手实现专属 TextView

前言 前面一篇介绍了自定义View的基础概念(皮毛)&#xff0c;接下来全部是自定义View实战&#xff0c;让我们一起开启自定义View之旅吧&#xff01; 1. 实现目标 本篇将实现一个自定义的TextView&#xff0c;通过自定义属性让我们可以配置文本内容、颜色、字体大小。主要是掌…