nodejs爬虫抓取数据快速入门

server/2025/2/26 4:51:11/

在Node.js中处理来自不同来源（如CSDN、Ruuoob、Cnblogs、W3School、简书等）的网页数据，通常可以通过几种方法实现，包括使用HTTP请求库（如axios或node-fetch）来获取网页内容，然后使用HTML解析库（如cheerio或jsdom）来提取所需数据。

以下是一个使用axios和cheerio的示例步骤，演示如何从多个网站抓取数据：

1. 安装必要的npm包

首先，确保你已经安装了axios和cheerio。如果未安装，可以通过以下命令安装：

npm install axios cheerio

2. 编写代码抓取数据

以下是一个Node.js脚本示例，用于从几个不同的网站抓取数据：

const axios = require('axios');
const cheerio = require('cheerio');async function fetchData(url) {try {const { data } = await axios.get(url);return cheerio.load(data);} catch (error) {console.error(`Error fetching ${url}:`, error);}
}async function getDataFromCSDN() {const $ = await fetchData('https://blog.csdn.net/'); // 示例URL，根据需要修改const title = $('title').text(); // 提取标题console.log('CSDN Title:', title);
}async function getDataFromRuuoob() {const $ = await fetchData('https://ruuoob.com/'); // 示例URL，根据需要修改const title = $('title').text(); // 提取标题console.log('Ruuoob Title:', title);
}async function getDataFromCnblogs() {const $ = await fetchData('https://www.cnblogs.com/'); // 示例URL，根据需要修改const title = $('title').text(); // 提取标题console.log('Cnblogs Title:', title);
}async function getDataFromW3School() {const $ = await fetchData('https://www.w3schools.com/'); // 示例URL，根据需要修改const title = $('title').text(); // 提取标题console.log('W3School Title:', title);
}async function getDataFromJianshu() {const $ = await fetchData('https://www.jianshu.com/'); // 示例URL，根据需要修改const title = $('title').text(); // 提取标题console.log('Jianshu Title:', title);
}// 调用函数获取数据
getDataFromCSDN();
getDataFromRuuoob();
getDataFromCnblogs();
getDataFromW3School();
getDataFromJianshu();

3. 注意事项

反爬虫机制： 一些网站可能实施了反爬虫机制（如IP封锁、用户代理检查等）。确保你的请求看起来像是正常的浏览器访问，例如设置用户代理。可以使用axios的headers属性来设置用户代理：

axios.get(url, { headers: { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } });