Python爬虫——简单网页抓取（实战案例）小白篇

Python 爬虫是一种强大的工具，用于从网页中提取数据。这里，我将通过一个简单的实战案例来展示如何使用 Python 和一些流行的库（如 requests 和 BeautifulSoup）来抓取网页数据。

实战案例：抓取一个新闻网站的头条新闻标题和链接

假设我们要从一个新闻网站（这里以虚构的 news.example.com 为例）抓取头条新闻的标题和链接。

步骤 1: 安装必要的库

首先，确保你已经安装了 requests 和 beautifulsoup4。如果没有安装，可以通过 pip 安装：

python">pip install requests beautifulsoup4

步骤 2: 编写爬虫代码

python">import requests  
from bs4 import BeautifulSoup  def fetch_headlines(url):  # 发送 HTTP GET 请求  response = requests.get(url)  # 检查请求是否成功  if response.status_code == 200:  # 使用 BeautifulSoup 解析 HTML  soup = BeautifulSoup(response.text, 'html.parser')  # 假设头条新闻位于一个具有特定类名的 div 中，这里以 'headline' 为例  headlines = soup.find_all('div', class_='headline')  # 遍历所有头条新闻  for headline in headlines:  # 假设标题和链接分别位于 h2 和 a 标签中  title = headline.find('h2').get_text(strip=True)  link = headline.find('a')['href']  # 打印标题和链接  print(f"标题: {title}, 链接: {link}")  else:  print("请求失败，状态码：", response.status_code)  # 调用函数，传入新闻网站的 URL  
fetch_headlines('http://news.example.com')

注意事项：

网页结构：上面的代码假设了网页的特定结构（如 div 标签的类名为 headline，标题在 h2 标签中，链接在 a 标签中）。在实际应用中，你需要根据目标网页的实际结构来调整选择器。
异常处理：在实际应用中，你可能需要添加更多的异常处理逻辑，比如处理网络错误、解析错误等。
遵守网站规则：在编写爬虫时，请确保遵守目标网站的 robots.txt 文件和其他使用条款，避免对网站造成不必要的负担或侵犯版权。
使用代理和头部信息：有时，为了绕过反爬虫机制，你可能需要设置请求头部（如 User-Agent）或使用代理服务器。
数据存储：抓取的数据可能需要保存到文件、数据库或其他存储系统中，以便后续分析和使用。