使用Python和Proxy302代理IP高效采集Bing图片

news/2024/9/18 14:54:45/ 标签: python, tcp/ip, 开发语言

目录

    • 项目背景
    • 一、项目准备
      • 环境配置
    • 二、爬虫设计与实现
      • 爬虫设计思路
        • 目标网站分析
        • 数据获取流程
      • 代码实现
        • 1. 初始化爬虫类(BingImageSpider)
        • 2. 创建存储文件夹
        • 3. 获取图像链接
        • 4. 下载图片
        • 5. 使用Proxy302代理IP
        • 6. 主运行函数
      • 运行截图
    • 三、总结

项目背景

本篇博客详细介绍了一个网络爬虫项目的准备和实现过程。该项目的目标是从Bing图片搜索中获取图片链接并下载图片。此类爬虫项目通常用于收集大量的图片数据,以便用于训练各种人工智能模型,特别是计算机视觉模型。计算机视觉领域的研究需要大量的图像数据来训练和测试模型,以便实现图像分类、对象检测、图像生成等功能。

一、项目准备

环境配置

在开始编写爬虫之前,确保已经完成以下环境配置:

1.Python安装: 确保已安装Python 3.x版本。Python是一种功能强大且易于学习的编程语言,适合于各种编程任务,包括网络爬虫开发。

2.需要的库: Python拥有庞大的第三方库生态系统,我们将使用几个核心库来开发爬虫:

  • requests: 用于发送HTTP请求和处理响应。
  • os: 提供了与操作系统交互的功能,用于创建文件夹等文件操作。
  • time: 提供了时间相关的功能,例如休眠程序以及计时等。
  • urllib: 提供了在网络上获取数据的一些功能,主要用于URL编码。

可以使用以下命令通过pip安装这些库:

python">pip install requests

如果你使用的是Anaconda等集成环境,可以使用conda命令:

python">conda install requests

这些库将帮助我们处理HTTP请求、解析和存储数据,以及进行一些基本的系统操作。

二、爬虫设计与实现

爬虫设计思路

目标网站分析

在设计爬虫之前,分析目标网站是必不可少的。对于Bing图片搜索网站,我们进行如下分析:

  • 网页结构:Bing图片搜索页面的结果通常以HTML的形式呈现,其中包含了多个图片的缩略图。每张图片的缩略图通常通过<img>标签展示,图片的真实链接保存在src属性中。
  • 动态加载:Bing的图片搜索结果可能采用了动态加载的方式。即在页面初始加载时,可能只加载部分图片,更多图片会在用户滚动页面时动态加载。Selenium可以模拟用户行为(如滚动)以加载这些动态内容。
  • 请求限制:Bing图片搜索可能对请求频率或IP地址进行限制。使用代理服务器有助于分散请求负载,避免IP被封禁。
数据获取流程

构建请求URL:根据用户输入的搜索关键词构建Bing图片搜索的URL。URL的格式通常为https://www.bing.com/images/search?q={搜索词},其中{搜索词}是用户的查询内容。
发送GET请求:通过Selenium WebDriver发送GET请求,加载目标网页。由于Bing图片搜索页面可能含有动态内容,Selenium能够处理这些动态加载的内容,确保图片链接完全加载。
解析网页数据:使用Selenium解析网页源代码,提取所有图片缩略图的src属性。通常,缩略图链接可以通过CSS选择器找到,例如使用img.mimg选择器获取图片标签。
下载图片:对于每个提取到的图片链接,使用Requests库发送GET请求以获取图片数据,并将其保存到本地目录。确保在保存时处理任何可能的下载异常,如网络问题或链接无效等。
存储管理:将下载的图片保存到预先创建的目录中,目录结构可按搜索词分类,方便后续管理和使用。

代码实现

以下是代码的主要部分及其功能说明:

1. 初始化爬虫类(BingImageSpider)

在爬虫开发过程中,首先需要定义一个爬虫类以实现图片的爬取功能。我们定义了一个名为BingImageSpider的类,用于处理从Bing图片搜索页面抓取和下载图片的任务。

python">import requests
import os
import time
from urllib import parseclass BingImageSpider(object):def __init__(self):self.url = 'https://www.bing.com/images/search?q={}&form=HDRSC2&first=1&tsc=ImageBasicHover'self.directory = r"D:\价值一个亿\python-mini-projects\projects\bingimg\{}"self.header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3','Accept-Language': 'en-US,en;q=0.9','Referer': 'https://www.bing.com'}
2. 创建存储文件夹

在图片爬取的过程中,为了组织和管理下载的图片,需要创建一个专门的存储文件夹。这个文件夹的名称通常与搜索关键词相关,以便于后续查找和管理。以下是创建存储图片文件夹的代码:

python">def create_directory(self, name):self.directory = self.directory.format(name)if not os.path.exists(self.directory):os.makedirs(self.directory)
3. 获取图像链接

该方法通过发送HTTP请求获取网页内容,并从Bing图片搜索结果页面获取图片的缩略图链接:

python">def get_image_link(self, url):list_image_link = []response = requests.get(url, headers=self.header)# 解析网页内容并提取图片链接try:json_data = response.json()for item in json_data['value']:if 'thumbnailUrl' in item:list_image_link.append(item['thumbnailUrl'])except Exception as e:print(f"Error occurred: {e}")return list_image_link

返回一个包含所有提取到的图片缩略图链接的列表,用于后续的图片下载操作。

4. 下载图片

此段代码的主要任务是下载指定的图片并将其保存到本地存储。实现这一功能需要处理网络请求、文件操作以及错误处理等多个方面。下面是该方法的实现代码:

python">def save_image(self, img_link, filename):try:res = requests.get(img_link, headers=self.header)with open(filename, "wb") as f:f.write(res.content)print("存储路径:" + filename)except requests.RequestException as e:print(f"Error downloading image: {e}")
  • 下载图片:该方法接受两个参数:img_link 和 filename。img_link 是要下载的图片的URL链接,filename 是保存图片的本地文件路径。方法通过HTTP请求下载图片数据,并将其写入到指定的文件中。
  • 文件存储:下载的图片以二进制模式(“wb”)写入到本地文件系统中,确保图片数据被正确保存。
    通过这种方法,可以确保从网络上下载的图片被正确存储在本地,以便于后续的使用和管理。
5. 使用Proxy302代理IP

在网络爬虫中,频繁的请求可能会被目标网站识别为异常流量,导致IP地址被封禁。为降低此风险,可以使用Proxy302等代理IP服务。Proxy302与302.AI是同一个开发团队,302.AI是一个汇集全球顶级品牌的AI超市,按需付费,无月费,全面开放使用各种类型AI。Proxy302跟302.AI的账号余额是通用的。

首先我们来到 proxy302.com 官网注册账号,选择自己所需要的代理ip

在这里插入图片描述

定义一个变量 proxy,包含了你要使用的代理服务器的地址和端口号。在这个例子中,代理服务器的地址是 proxy.proxy302.com,端口号是 2222。

python"># 配置代理设置
proxy = "proxy.proxy302.com:2222"  # 代理地址:端口

创建一个 Options 对象,这是Selenium提供的一个配置类,用于设置Chrome浏览器的各种选项。

python">chrome_options = Options()
python">chrome_options.add_argument(f'--proxy-server=http://{proxy}')
  • 通过 add_argument 方法将一个新的命令行参数添加到Chrome浏览器的启动选项中。这行代码添加了 --proxy-server 参数,指定了要使用的代理服务器。
  • http://{proxy} 表示使用 http 协议连接到代理服务器,{proxy} 是上面定义的代理地址和端口。最终,这个参数告诉Chrome浏览器所有的网络请求都要通过这个指定的代理服务器进行。

在这里插入图片描述

在选择代理服务时,可靠性和灵活性是至关重要的考虑因素。Proxy302凭借其全面的代理类型、多样的支持协议,以及灵活的定价模式,成为了众多用户的首选。这些优势不仅确保了高效的数据采集,还为不同场景的应用提供了极大的便利。

最全面代理类型:Proxy302提供市面上最全面的代理类型,满足各种业务需求。

  • 全球240+国家和地区,6500万个住宅IP可供选择。
  • Proxy302支持HTTP、SOCKS5网络协议的代理。
  • Proxy302支持动态、静态代理,代理类型分为【动态按流量扣费】、【动态按IP扣费】、【静态按流量扣费】、【静态按IP扣费】,静态代理还分为住宅IP、数据中心IP。

简洁易用:用户界面简洁而不简单,易用且高效。提供浏览器扩展插件,实现一键设置代理,省去复杂配置步骤。
按需付费,无月付套餐:无需套餐捆绑购买,按需付费,充值即可使用所有类型的代理IP,无阶梯式定价。

使用代理ip 这种方式能够有效地隐藏真实IP地址,从而规避被封禁的风险。

6. 主运行函数

run函数是程序的入口点,负责控制整个爬虫的执行流程。它依次处理用户输入、构建请求URL、提取图片链接、下载图片,并进行适当的延时以防止过于频繁的请求。以下是run函数的具体代码:

python">def run(self):searchName = input("查询内容:")self.create_directory(searchName)search_url = self.url.format(parse.quote(searchName))image_links = self.get_image_link(search_url)for index, link in enumerate(image_links):self.save_image(link, os.path.join(self.directory, f"{index + 1}.jpg"))time.sleep(1)  # 防止请求过于频繁

通过这些方法,爬虫能够高效地从Bing图片搜索中获取并下载相关图片,实现自动化的图像数据收集。

运行截图

在这里插入图片描述

在这里插入图片描述

三、总结

本文档介绍了如何通过Python实现一个简单的Bing图片爬虫,并解释了各部分代码的功能与逻辑。同时,为了规避频繁请求可能带来的IP封禁风险,我们还介绍了如何在爬虫中使用Proxy302代理IP服务。通过这个项目,大家可以轻松获取大量的图片数据,用于训练计算机视觉模型或其他用途。


http://www.ppmy.cn/news/1524824.html

相关文章

上海泗博EtherNet/IP转PROFIBUS DP网关EPS-320IP成都地铁项目应用案例

背景&#xff1a; 地铁&#xff0c;作为城市的活力脉搏&#xff0c;不仅是衔接城市生活的关键纽带&#xff0c;更是现代城市交通体系中不可或缺的核心组成部分。因此&#xff0c;确保地铁的稳定运行对任何一座城市都至关重要。 上海泗博自动化&#xff0c;作为与成都地铁项目合…

Linux从入门到开发实战(C/C++)Day11-aio

什么是aio&#xff1a;异步io&#xff0c;让io过程异步进行&#xff0c;从而提升读写效率 涉及状态切换&#xff1a;用户态、内核态 如何进行aio读操作&#xff1a; 执行异步操作的时候&#xff0c;函数直接返回&#xff08;可以先去做其他事情&#xff09; 同…

机器学习特征-学习篇

一、特征概念 1. 什么是特征 特征是事物可供识别的特殊的征象或标志 在机器学习中&#xff0c;特征是用来描述样本的属性或观测值的变量。它们可以是任何类型的数据&#xff0c;包括数字、文本、图像、音频等。 作用&#xff1a; 特征是训练和评估机器学习模型的基础。好的特…

VScode 的简单使用

目录 1. VScode 的使用 1.1 常用插件 1.2 常用快捷键 1. VScode 的使用 1.1 常用插件 1.2 常用快捷键 也可以“ CTRLD ”&#xff1b;使用“CTRL滚轮”即可&#xff1b; ctrl /-&#xff0c;是用来展开/收起代码的&#xff1b; 比如&#xff1a;js 的多行注释是 shiftalt…

电脑开机速度慢怎么解决?

电脑开机速度慢怎么解决&#xff1f;电脑开机速度慢的原因可以是多方面的&#xff0c;以下是一些常见的原因&#xff1a; 启动项过多&#xff1a; 许多软件在系统启动时会自动启动&#xff0c;导致启动项过多&#xff0c;从而延长了开机时间。过时的驱动程序&#xff1a; 设备…

NFTScan | 09.02~09.08 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期&#xff1a;2024.09.02~ 2024.09.08 NFT Hot News 01/ 数据&#xff1a;NFT 8 月销售额跌破 4 亿美元&#xff0c;创年内新低 9 月 2 日&#xff0c;数据显示&#xff0c;8 月 NFT 的月销售额仅为 …

【计算机网络 - 基础问题】每日 3 题(一)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏&…

Spring Boot 注解探秘:Bean 管理的艺术

在 Spring Boot 应用开发中&#xff0c;Bean 的管理是核心功能之一。Spring Boot 提供了一套强大的注解系统&#xff0c;帮助开发者轻松管理 Bean 的生命周期和依赖注入。本文将深入探讨 Spring Boot 中常用的 Bean 处理注解及其应用场景。 一、Component注解 Component是一个…

第L6周:机器学习-随机森林(RF)

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 目标&#xff1a; 1.什么是随机森林&#xff08;RF&#xff09; 随机森林&#xff08;Random Forest, RF&#xff09;是一种由 决策树 构成的 集成算法 &#…

python库安装失败问题

pip install XXXX 报错信息如下 D:\Dev>pip install D:\Dev\robotlib-0.0.33.tar.gz DEPRECATION: Loading egg at d:\app\dev\python\lib\site-packages\fs11a3_package-1.3-py3.11.egg is deprecated. pip 24.3 will enforce this behaviour change. A possible replace…

mac安装swoole过程

1.很重要的是得根据自己环境的php版本来选择swoole版本&#xff01;否则都是做无用功。 Swoole 文档 2.通常pecl install swoole是安装最新版本的&#xff0c;当然安装的方式很多种&#xff0c;这里选择编译安装&#xff0c;因为可以选择不同的swoole版本进行安装&#xff0c;…

CTF中Web题目的常见题型及解题方法

基础知识类题目# 考察基本的查看网页源代码、HTTP请求、修改页面元素等。 这些题很简单&#xff0c;比较难的比赛应该不会单独出&#xff0c;就算有因该也是Web的签到题。 实际做题的时候基本都是和其他更复杂的知识结合起来出现。 姿势&#xff1a;恶补基础知识就行 查看网…

【无人机设计与控制】固定翼四旋翼无人机UAV俯仰姿态飞行模糊自整定PID控制Simulink建模

摘要 本研究设计了一种基于模糊自整定PID控制的固定翼四旋翼无人机俯仰姿态控制系统。利用Simulink建立了无人机俯仰控制系统模型&#xff0c;通过模糊控制器自适应调节PID参数&#xff0c;实现了对无人机俯仰角度的精确控制。实验结果表明&#xff0c;该控制策略在不同飞行状…

Java中NoSQL 与分布式数据库

Java 中的 NoSQL 与分布式数据库 随着大数据、云计算和分布式系统的快速发展&#xff0c;传统的关系型数据库&#xff08;如 MySQL、PostgreSQL 等&#xff09;在处理大规模数据时往往会遇到扩展性和性能上的瓶颈。为了解决这些问题&#xff0c;NoSQL 数据库和分布式数据库应运…

启动 Spring Boot 项目时指定特定的 application.yml 文件位置

java -jar your-spring-boot-app.jar --spring.config.locationfile:/path/to/your/config/application.yml your-spring-boot-app.jar 是你的 Spring Boot 应用的 JAR 文件名。file:/path/to/your/config/application.yml 是配置文件的绝对路径。 如果你有多个配置文件&#…

机器学习--神经网络

神经网络 计算 神经网络非常简单&#xff0c;举个例子就理解了&#xff08;最后一层的那个写错了&#xff0c;应该是 a 1 ( 3 ) a^{(3)}_1 a1(3)​&#xff09;&#xff1a; n o t a t i o n notation notation&#xff1a; a j ( i ) a^{(i)}_j aj(i)​ 表示第 i i i 层的…

嵌入式学习路线+嵌入式校招建议 嵌入式学习面试规划

随着物联网、人工智能以及5G等技术的迅猛发展&#xff0c;嵌入式系统的需求逐渐增多。作为毕业生&#xff0c;如何制定一个合理的学习路线&#xff0c;以确保在找工作、参加校招时有足够的竞争力&#xff0c;是非常重要的。我会为你提供一个更加详细、系统的学习路线建议&#…

【必看!多系统萎缩患者的维生素补给站,守护你的健康每一天✨】

亲爱的朋友们&#xff0c;今天我们要聊一个温暖而重要的话题——关于多系统萎缩&#xff08;MSA&#xff09;患者如何科学补充维生素&#xff0c;让爱与健康同行&#xff01;&#x1f496; &#x1f308; 认识多系统萎缩MSA 首先&#xff0c;让我们简单了解一下多系统萎缩。M…

k8s的配置管理

一、配置管理分为两种&#xff1a; 1. 加密配置&#xff1a;用来保存密码和token密钥对以及其它敏感的k8s资源。 2.应用配置&#xff1a;我们需要定制化的给应用进行配置&#xff0c;我们需要把定制好的配置文件同步到pod当中的容器。 二、加密配置 1.secret三种类型&#xf…

Java笔试面试题AI答之单元测试JUnit(3)

文章目录 13. 什么是注释以及它们如何在JUnit中有用&#xff1f;什么是注释&#xff08;Annotation&#xff09;&#xff1f;注释在JUnit中的用途 14. 解释如何测试”受保护”方法&#xff1f;1. 使用子类2. 同一包内直接测试3. 反射&#xff08;在支持的语言中&#xff09;4. …