Puppeteer教程:使用CSS选择器点击和爬取动态数据

server/2024/11/18 7:56:42/

<a class=爬虫代理" />

1. 前言

在现代的网页中,许多数据是通过JavaScript动态加载的,这使得传统的爬虫工具(如requestsBeautifulSoup)无法获取到这些数据。因此,为了更好地处理动态网站的数据爬取,我们需要使用像Puppeteer这样的浏览器自动化工具。

本文将介绍如何使用Puppeteer结合CSS选择器,实现对动态网页的交互操作,并爬取贝壳网的二手房价格数据。为了提高爬虫的成功率,我们还将结合爬虫代理,通过代理IP提高采集效率。

Puppeteer_6">2. Puppeteer简介

Puppeteer_7">2.1 什么是Puppeteer

Puppeteer 是一个由 Google 官方推出的 Node.js 库,用于控制 Chromium 或 Chrome 浏览器。它支持各种浏览器自动化任务,例如截屏、生成PDF、页面爬取和测试自动化。

Puppeteer_10">2.2 Puppeteer的优势

  • 渲染JavaScript:可以抓取动态加载的数据。
  • 模拟用户操作:可以点击、输入、滚动等操作,适合处理需要用户交互的页面。
  • 支持无头浏览器:可以以无界面模式运行,效率高。

3. 环境准备

3.1 安装Node.js

在开始之前,请确保已安装Node.js,可以通过以下命令检查版本:

node -v
npm -v

Puppeteer_24">3.2 安装Puppeteer

在项目目录下,使用以下命令安装Puppeteer

npm install puppeteer

3.3 安装代理库

为了使用代理IP,我们将安装proxy-chain库:

npm install proxy-chain

4. 代码实现

我们将以贝壳网为目标网站,爬取北京市二手房的价格数据,并使用爬虫代理进行代理配置。

4.1 代理配置

爬虫代理提供以下参数:

  • 代理域名proxy.16yun.cn
  • 端口8000
  • 用户名yourUsername
  • 密码yourPassword

4.2 完整代码

const puppeteer = require('puppeteer');
const proxyChain = require('proxy-chain');(async () => {// 配置亿牛云爬虫代理 www.16yun.cnconst proxyUrl = 'http://yourUsername:yourPassword@proxy.16yun.cn:8000';const newProxyUrl = await proxyChain.anonymizeProxy(proxyUrl);// 启动 Puppeteer 浏览器const browser = await puppeteer.launch({headless: true, // 无头模式args: [`--proxy-server=${newProxyUrl}`] // 使用代理服务器});const page = await browser.newPage();// 设置页面视口await page.setViewport({ width: 1200, height: 800 });// 访问贝壳网二手房列表页面const url = 'https://bj.ke.com/ershoufang/';await page.goto(url, { waitUntil: 'networkidle2' });// 等待页面加载并选择价格元素await page.waitForSelector('.sellListContent .priceInfo .totalPrice .number');// 获取二手房列表的价格数据const prices = await page.$$eval('.sellListContent .priceInfo .totalPrice .number', elements =>elements.map(el => el.textContent.trim()));// 获取标题const titles = await page.$$eval('.sellListContent .title a', elements =>elements.map(el => el.textContent.trim()));// 数据展示console.log('抓取到的二手房价格数据:');prices.forEach((price, index) => {console.log(`房源 ${index + 1}: 标题 - ${titles[index]}, 价格 - ${price} 万元`);});// 关闭浏览器await browser.close();
})();

4.3 代码解析

  1. 代理配置:通过proxyChain库配置代理IP,确保请求通过爬虫代理,避免IP被限制。
  2. 页面加载:使用waitForSelector等待页面加载完成,确保动态数据已经渲染。
  3. 数据提取:使用CSS选择器获取价格和标题数据,通过$$eval方法提取页面中的文本内容。

4.4 常见问题与解决方案

  1. 页面加载失败
    • 原因:代理IP连接不稳定或页面加载时间过长。
    • 解决方案:调整goto方法的超时时间,如{timeout: 60000}
  2. 选择器找不到元素
    • 原因:页面结构发生变化。
    • 解决方案:使用浏览器开发者工具重新分析页面,更新选择器。

5. 数据趋势分析

我们爬取了一定数量的二手房价格数据后,可以进行简单的数据分析,了解北京市二手房价格的分布趋势。以下是使用Python进行趋势分析的简单代码示例。

5.1 数据保存

将爬取的数据保存到data.json文件中,格式如下:

[{"title": "北京某小区一居室", "price": "800"},{"title": "北京某小区二居室", "price": "1200"}
]

5.2 数据分析与可视化

import json
import matplotlib.pyplot as plt# 读取数据
with open('data.json', 'r') as file:data = json.load(file)# 提取价格数据
prices = [int(item['price']) for item in data]
titles = [item['title'] for item in data]# 绘制价格趋势图
plt.figure(figsize=(10, 6))
plt.plot(range(len(prices)), prices, marker='o')
plt.title('北京市二手房价格趋势')
plt.xlabel('房源编号')
plt.ylabel('价格 (万元)')
plt.grid()
plt.show()

5.3 结果分析

从价格趋势图中可以看出,北京市二手房价格存在一定的波动,具体趋势需要结合更多的数据样本和时间段进行深入分析。可以使用更多的数据分析工具(如Pandas)进行详细的统计分析。

6. 总结

本文详细介绍了如何使用Puppeteer结合CSS选择器实现对动态网页的数据爬取,并且通过代理IP技术规避反爬机制,确保爬虫的稳定性和成功率。我们以贝壳网为例,抓取了二手房价格数据,并进行了简单的趋势分析。

6.1 优化建议

  1. 代理IP轮换:可以使用多个代理IP进行轮换,避免因使用单一IP被封禁。
  2. 数据存储:可以使用MongoDB或MySQL等数据库进行数据持久化存储。
  3. 分布式爬取:结合Redis等任务队列工具,实现分布式爬取,提高爬取效率。

通过本文的学习,希望大家能够掌握使用Puppeteer进行动态网页爬取的基本方法,并能应用于实际项目中。Happy Coding!


http://www.ppmy.cn/server/142853.html

相关文章

数据库运维实操优质文章文档分享(含Oracle、MySQL等) | 2024年10月刊

本文为大家整理了墨天轮数据社区2024年10月发布的优质技术文章/文档&#xff0c;主题涵盖Oracle、MySQL、PostgreSQL等主流数据库系统以及国产数据库的技术实操&#xff0c;从基础的安装配置到复杂的故障排查&#xff0c;再到性能优化的实用技巧及常用脚本等&#xff0c;分享给…

OpenGL 进阶系列14 - 曲面细分着色器

一:概述 OpenGL 曲面细分着色器(Tessellation Shader)是一种用于图形渲染的高级着色器,旨在对图形进行细分处理。它使得开发者能够将粗糙的模型细分成更精细的网格,从而实现更加平滑和细致的表面。曲面细分着色器通过引入两个主要阶段来实现细分:控制着色器、细分着色器和…

Linux常用命令之wc命令详解

wc 命令详解 wc&#xff08;word count&#xff09;命令是 Linux 和类 Unix 系统中的一个强大工具&#xff0c;用于统计文件中的行数、单词数、字节数和字符数。通过不同的选项&#xff0c;用户可以自定义统计的内容。wc 命令不仅适用于单个文件&#xff0c;还可以处理多个文件…

HTTP常见的状态码有哪些,都代表什么意思

HTTP 协议定义了一系列的状态码&#xff0c;用于描述服务器对客户端请求的处理结果。这些状态码分为五个类别&#xff0c;每个类别都有特定的用途。 常见状态码 1开头 信息性状态码 这些状态码表示请求已被接收&#xff0c;继续处理。 100 Continue&#xff1a;客户端应继续…

使用Web Animations API实现复杂的网页动画效果

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用Web Animations API实现复杂的网页动画效果 使用Web Animations API实现复杂的网页动画效果 使用Web Animations API实现复杂…

ubuntu 16.04 中 VS2019 跨平台开发环境配置

su 是 “switch user” 的缩写&#xff0c;表示从当前用户切换到另一个用户。 sudo 是 “superuser do” 的缩写&#xff0c;意为“以超级用户身份执行”。 apt 是 “Advanced Package Tool” 的缩写&#xff0c;Ubuntu中用于软件包管理的命令行工具。 1、为 root 用户设置密码…

注解用于从 HTTP 请求中提取数据

在 Spring 框架中&#xff0c;PathVariable、RequestParam 和 RequestBody 等注解用于从 HTTP 请求中提取数据。具体来说&#xff1a; PathVariable&#xff1a;用于从 URL 路径中提取变量值。例如&#xff0c;在路径 /users/{id} 中&#xff0c;{id} 是一个路径变量。Request…

LeetCode题练习与总结:链表随机节点--382

一、题目描述 给你一个单链表&#xff0c;随机选择链表的一个节点&#xff0c;并返回相应的节点值。每个节点 被选中的概率一样 。 实现 Solution 类&#xff1a; Solution(ListNode head) 使用整数数组初始化对象。int getRandom() 从链表中随机选择一个节点并返回该节点的…