爬虫技术——小白入狱案例

news/2024/11/6 12:42:33/

在这里插入图片描述
知孤云出岫

目录

      • 1. 案例概述
      • 2. 案例需求分析
      • 3. 实现步骤
        • Step 1: 环境准备
        • Step 2: 分析百度图片URL请求规律
        • Step 3: 编写爬虫代码
        • 代码解析
      • 4. 运行代码
      • 5. 注意事项
      • 6. 案例总结

要实现大批量爬取百度图片,可以使用Python编写一个网络爬虫,通过发送HTTP请求并解析网页内容获取图片URL,然后将图片下载到本地。以下是一个详细的技术案例,包括具体实现步骤和代码示例。

1. 案例概述

百度图片搜索页面可以展示大量的图片,我们可以通过分析其请求规律,编写爬虫从页面中获取图片URL,并将图片批量下载。我们将使用requests库获取网页内容,BeautifulSoup库解析HTML,re库进行正则匹配,同时使用多线程或异步库加速下载过程。

2. 案例需求分析

  • 目标:批量下载百度图片搜索结果中的优质图片
  • 技术栈:Python、requests、BeautifulSoup、正则表达式、线程池
  • 难点
    • 爬虫需要模拟浏览器请求,避免被反爬机制检测
    • 图片下载需高效且保证成功率
    • 百度图片页面的URL是动态生成的,需要正确分析数据接口

3. 实现步骤

Step 1: 环境准备
pip install requests
pip install beautifulsoup4
Step 2: 分析百度图片URL请求规律

在百度图片页面进行搜索,使用浏览器开发者工具(F12)查看网络请求。可以发现,图片信息是通过特定的JSON接口获取的。通常请求的URL格式如下:

https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num}&rn=30
  • queryWordword是搜索关键词。
  • pn表示图片页码。
  • rn表示每页图片数量。
Step 3: 编写爬虫代码

以下代码示例展示了如何构建一个百度图片爬虫。该爬虫首先发起HTTP请求获取JSON数据,再解析其中的图片URL,然后逐一下载图片到本地。

import os
import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor# 定义请求头,模拟浏览器行为
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"
}# 创建文件夹存储图片
def create_folder(folder_name):if not os.path.exists(folder_name):os.makedirs(folder_name)# 获取图片URL列表
def fetch_image_urls(keyword, page_num):url = f"https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num*30}&rn=30"response = requests.get(url, headers=headers)response.encoding = 'utf-8'# 使用正则表达式提取所有图片的URLimg_urls = re.findall(r'"thumbURL":"(http.*?)"', response.text)return img_urls# 下载图片
def download_image(img_url, folder_name):try:img_data = requests.get(img_url, headers=headers).contentimg_name = os.path.join(folder_name, img_url.split('/')[-1])with open(img_name, 'wb') as img_file:img_file.write(img_data)print(f"Downloaded: {img_name}")except Exception as e:print(f"Failed to download {img_url}: {e}")# 主函数,负责获取URL和下载图片
def main(keyword, num_pages, folder_name="images"):create_folder(folder_name)with ThreadPoolExecutor(max_workers=10) as executor:for page_num in range(num_pages):img_urls = fetch_image_urls(keyword, page_num)for img_url in img_urls:executor.submit(download_image, img_url, folder_name)# 执行爬虫
if __name__ == "__main__":search_keyword = "风景"  # 可替换成需要的搜索关键词main(search_keyword, num_pages=5)
代码解析
  1. 请求图片数据fetch_image_urls函数构造URL并发起请求,返回包含图片URL的列表。
  2. 图片下载download_image函数负责下载并保存图片,同时使用多线程加速下载过程。
  3. 多线程下载ThreadPoolExecutor用于并行下载图片。

4. 运行代码

运行以上代码后,会在images文件夹下存储批量下载的百度图片。根据网络环境和页面数量,可实现高效的图片下载。

5. 注意事项

  1. 反爬策略:百度可能会检测异常访问频率导致IP封禁。可以通过减少请求频率、使用代理IP等方式规避反爬。
  2. 使用代理:在高频请求情况下,建议添加代理池来模拟不同IP访问。
  3. 延时操作:为避免频繁请求导致的封禁,可以在请求间添加随机延时。

6. 案例总结

以上技术案例展示了如何利用Python爬虫实现大批量百度图片的下载。通过合理构造请求、使用正则表达式解析数据,以及使用多线程提升效率,该爬虫具备较好的性能和可拓展性。

步骤编号步骤名称操作说明代码示例
1环境准备安装所需的Python库:requestsbeautifulsoup4pip install requests
pip install beautifulsoup4
2分析请求URL格式使用浏览器开发者工具(F12)观察百度图片页面的网络请求,找到获取图片的接口URL。URL示例:
https://image.baidu.com/search/acjson?...
3创建图片存储文件夹检查文件夹是否存在,若不存在则创建。os.makedirs(folder_name)
4获取图片URL列表构造请求URL,使用正则表达式提取图片URL。fetch_image_urls(keyword, page_num)
5下载图片通过图片URL下载图片数据并保存到本地文件夹中。download_image(img_url, folder_name)
6多线程并行下载使用ThreadPoolExecutor进行多线程图片下载,提高下载效率。executor.submit(download_image, img_url, folder_name)
7执行爬虫调用main()函数,输入关键词和页数,启动爬虫程序,完成图片批量下载。main(search_keyword, num_pages=5)
8反爬策略加入延时、代理IP等措施,避免因高频访问被封禁。使用time.sleep() 或代理池
9案例总结通过Python爬虫实现百度图片批量下载,分析URL结构、多线程加速下载,并总结反爬注意事项。-

http://www.ppmy.cn/news/1544815.html

相关文章

如何使用Puppeteer和Node.js爬取大学招生数据:入门指南

1. 引言 在数据驱动的时代,招生数据为学生和教育机构提供了许多宝贵的信息。通过分析和挖掘各大学的招生数据(如录取率、标准化考试分数、班级排名和高中平均绩点),不仅能帮助学生做出合理的选择,还能为教育政策的制定…

element根据输入,动态生成表格

场景:后台页面根据商品规格和规格值&#xff0c;动态(增删改查)在表格中生成对应的sku. 如图: 代码如下: edit.html <template xmlns""><div class"app-container"><el-form ref"form" :model"form" label-width&qu…

qt QFontDialog详解

1、概述 QFontDialog 是 Qt 框架中的一个对话框类&#xff0c;用于选择字体。它提供了一个可视化的界面&#xff0c;允许用户选择所需的字体以及相关的属性&#xff0c;如字体样式、大小、粗细等。用户可以通过对话框中的选项进行选择&#xff0c;并实时预览所选字体的效果。Q…

项目模块十二:TcpServer模块

一、模块设计思路 1、目的 对所有模块整合&#xff0c;实现一个服务器模块供外部快速搭建服务器。 2、管理 监听套接字 主 Reactor&#xff0c;创建 EventLoop _baseloop 对象&#xff0c;进行对监听套接字的管理 哈希表管理所有新连接的 Channel 创建线程池进行连接的事…

python类方法、实例方法以及相互关系

在Python中&#xff0c;类方法&#xff08;class method&#xff09;是一种特殊类型的方法&#xff0c;它使用类本身作为第一个参数&#xff0c;而不是实例对象。类方法通常用于定义与类本身相关但不需要访问实例属性的操作。类方法的第一个参数通常命名为cls&#xff0c;以区别…

[Unity Demo]从零开始制作空洞骑士Hollow Knight第十九集:制作过场Cutscene系统

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、制作过场Cutscene系统 1.制作基本的视频过场和动画过场2.制作决定过场系统的播放顺序Sequence以及切换场景以后的逻辑处理二、制作跳过过场Cutscene的MenuS…

Webserver(3.3)生产者消费者模型

目录 生产者消费者简单模型条件变量信号变量 生产者消费者简单模型 //生产者消费者模型#include <stdio.h> #include<pthread.h> #include<stdlib.h> #include<unistd.h>struct Node{int num;struct Node * next; }; //头结点 struct Node * headNULL…

unreal engine5动画重定向

UE5系列文章目录 文章目录 UE5系列文章目录前言一、下载动画资源二、创建IK Rig&#xff08;IK绑定&#xff09; 前言 在Unreal Engine 5.4中&#xff0c;动画重定向&#xff08;Animation Retargeting&#xff09;和动作匹配&#xff08;Motion Matching&#xff09;是两种不…