如何运用python爬虫爬取百度贴吧的静态图片？

爬取百度贴吧图片的详细步骤和代码实现

爬取百度贴吧图片的过程可以分为以下几个步骤：

分析网页结构：了解百度贴吧页面的HTML结构，找到图片的URL。
发送HTTP请求：使用requests库获取网页内容。
解析HTML内容：使用BeautifulSoup库解析HTML，提取图片URL。
下载并保存图片：将图片下载并保存到本地。

以下是一个完整的代码实现过程：

1. 分析网页结构

首先，打开百度贴吧的某个帖子页面，查看其HTML结构。图片通常嵌入在<img>标签中，需要提取src属性。

2. 发送HTTP请求

使用requests库发送HTTP请求，获取网页内容。为了防止被反爬虫机制拦截，可以设置User-Agent。

3. 解析HTML内容

使用BeautifulSoup库解析HTML内容，提取图片URL。

4. 下载并保存图片

将图片下载并保存到本地。为了避免重复下载，可以检查文件是否已存在。

完整代码实现

Python复制

python">import requests
from bs4 import BeautifulSoup
import os
import random
import time# 获取网页内容
def get_html(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:print(f"Failed to retrieve the webpage: {url}")return None# 解析HTML内容，提取图片URL
def extract_image_urls(html_content):soup = BeautifulSoup(html_content, 'html.parser')images = soup.find_all('img')  # 查找所有图片标签image_urls = []for img in images:img_url = img.get('src')  # 获取图片的src属性if img_url and img_url.startswith('http'):  # 确保是完整的URLimage_urls.append(img_url)return image_urls# 下载并保存图片
def download_images(image_urls, save_dir='images'):if not os.path.exists(save_dir):os.makedirs(save_dir)  # 创建保存图片的文件夹for i, img_url in enumerate(image_urls):img_name = os.path.basename(img_url)  # 从URL中提取文件名save_path = os.path.join(save_dir, img_name)if os.path.exists(save_path):print(f"{img_name} already exists. Skipping...")continuetry:response = requests.get(img_url, timeout=10)response.raise_for_status()  # 确保请求成功with open(save_path, 'wb') as img_file:img_file.write(response.content)  # 保存图片print(f"Downloaded {img_name}")except requests.RequestException as e:print(f"Failed to download {img_url}. Error: {e}")time.sleep(random.uniform(1, 3))  # 随机延时，避免被封禁# 主函数
def main():url = 'https://tieba.baidu.com/p/1234567890'  # 替换为目标帖子的URLhtml_content = get_html(url)if html_content:image_urls = extract_image_urls(html_content)download_images(image_urls)if __name__ == "__main__":main()