【爬虫】Firecrawl对京东热卖网信息爬取(仅供学习)

devtools/2024/12/4 22:19:26/

项目地址

GitHub - mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.

Firecrawl更多是使用在LLM大模型知识库的构建,是大模型数据准备中的一环(在Dify中会接触到)也是作为检索增强生成(Retrieval Augmented Generation)技术,简称 RAG(当前最火热的LLM应用方案)的一环。

在线体验

https://www.firecrawl.dev/

邮箱或其他方式登录后,点击Dashboard

然后可见自己的API Key

分析

1.用Firecrawl的Python SDK举例

使用方法:

1.通过官网进入获取自己的API Key(免费可用500次请求)

2.打开firecrawl中的Python SDK文件夹


可在里面构建.py用于测试的文件(部分test_开头的文件是博主自行构建用于测试的
 

2.分析搜索地址(请勿大批量爬取影响网站正常运作)

https://re.jd.com/search?keyword=CCD&enc=utf-8

我们可以看到不同关键词搜索会改变地址栏的keyword=CCD,那么我们就可以通过更改地址栏keyword=来更改网络页面。(可以在在线体验中先测试一下)
简单用代码表示如下

python">    keyword = "Dangerous people"try:# Crawl a website:crawl_status = app.crawl_url(# 京东f'https://re.jd.com/search?keyword={keyword}&enc=utf-8',params={'limit': 10,'scrapeOptions': {'formats': ['markdown', 'html']}},)

3.完整爬虫代码

配置好环境,更换自己的API Key和关键词keyword即可

python">from firecrawl import FirecrawlApp
import json
import urllib.parse
import re
from bs4 import BeautifulSoupdef get_value_in_html(text):"""html取值,通过BeautifulSoup取对应的值"""soup = BeautifulSoup(text, 'html.parser')items = soup.find_all('li', {'clstag': lambda x: x and 'ri_same_recommend' in x})result = []for item in items:# 取img_k类的img标签的src属性作为图片链接pic_img = item.find('div', class_='pic').find('img', class_='img_k')['src']pic_img = f"https:{pic_img}"a_tag = item.find('div', class_='li_cen_bot').find('a')if a_tag is None:continueproduct_link = a_tag['href']price = a_tag.find('div', class_='commodity_info').find('span', class_='price')if price is not None:price = price.text.strip()else:price = ''title = a_tag.find('div', class_='commodity_tit')if title is not None:title = title.text.strip()else:title = ''comment_span = a_tag.find('div', class_='comment').find('span', class_='praise')if comment_span is not None:evaluation = comment_span.text.strip()else:evaluation = ''product_info = {'price': price,'title': title,'evaluation': evaluation}result.append({"pic_img": pic_img,"product_link": product_link,"product_info": product_info})return resultAPI_KEY = "..."
# 用登录后自己的API_KEY
app = FirecrawlApp(api_key=API_KEY)if __name__ == '__main__':# 可更改关键词搜索其他keyword = "Dangerous people"# keyword_encode = urllib.parse.quote(keyword)try:# Crawl a website:crawl_status = app.crawl_url(# 京东热卖f'https://re.jd.com/search?keyword={keyword}&enc=utf-8',params={'limit': 10,'scrapeOptions': {'formats': ['markdown', 'html']}},)# markdown = crawl_status['data'][0]['markdown']# 使用html提取(提取方法用到bs4)html = crawl_status['data'][0]['html']response = {"result_list": get_value_in_html(html)}print(json.dumps(response, ensure_ascii=False))except Exception as e:print(f"链接firecrawl异常:{e}")

4.返回爬取数据

返回json数据如下


http://www.ppmy.cn/devtools/135998.html

相关文章

AMD(Xilinx) FPGA配置Flash大小选择

目录 1 FPGA配置Flash大小的决定因素2 为什么选择的Flash容量大小为最小保证能够完成整个FPGA的配置呢? 1 FPGA配置Flash大小的决定因素 在进行FPGA硬件设计时,选择合适的配置Flash是我们进行硬件设计必须考虑的,那么配置Flash大小的选择由什…

绍兴柯桥成人实用口语学习雅思托福口语培训

“内裤”的英语说法 在英语中,“内裤”有多种表达方式,最常见的有以下几种: Underwear:这是一个非常通用的词汇,可以泛指所有贴身穿着的衣物,包括内裤、内衣等(就是咱们常说的“贴身衣物”&am…

MEMS硅麦克风应用电子烟雾化产业稳步爬升,耐高温、 防油、防酸、防腐蚀等性能优势和可实现自动化贴片及极高的一致性等特性使其必将成为主流

全球范围内,电子烟行业正处于快速发展的阶段。随着消费者健康意识的提升和对传统烟草制品替代品需求的增加,电子烟市场获得了显著的增长。然而,伴随而来的监管挑战和消费者期待的变化,也促使行业不断进行技术创新和产品优化。特别…

Excel——宏教程(2)

Excel——宏教程(2) 一)、处理单元格 1、直接赋值与引用 将变量、常量值直接赋给单元格、或将单元格的值直接赋给变量、常量,这是在excel中最简单的单元格赋值及引用方法。 如下例将工作表"Sheet1"A1单元格的值赋给Integer变量I,并将I1的值…

sklearn中常用数据集简介

scikit-learn库中提供了包括分类、回归、聚类、降维等多种机器学习任务所需的常用数据集,方便进行实验和研究,它们主要被封装在sklearn.datasets中,本文对其中一些常用的数据集进行简单的介绍。 1.Iris(鸢尾花)数据集…

QT如何共享文件+拷贝文件

QString sharedFolderPathImg "\\\\" IP "/profileImage/"; // 更换为你的共享文件夹路径QDir dirImg(sharedFolderPathImg);dirImg.setFilter(QDir::NoDotAndDotDot | QDir::AllEntries);QVector<QString> curFileEntryArrayImg dirImg.entryList…

nwjs崩溃复现、 nwjs-控制台手动操纵、nwjs崩溃调用栈解码、剪切板例子中、nwjs混合模式、xdotool显示nwjs所有进程窗口列表

-1. nwjs在低版本ubuntu运行情况 ubuntu16.04运行nw-v0.93或0.89报错找不到NSS_3.30、GLIBC_2.25 uname -a #Linux Asus 4.15.0-112-generic #113~16.04.1-Ubuntu SMP Fri Jul 10 04:37:08 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux cat /etc/issue #Ubuntu 16.04.7 LTS \n \l…

JVM(三、运行时数据区)

1、运行时数据区 数据区按照线程使用情况分两大类&#xff1a; 由所有线程共享的数据区&#xff1a;字面意思&#xff0c;所有线程都使用同一个。 堆和方法区、存储类的静态数据和对象数据、需要垃圾回收 线程隔离的数据区&#xff1a;每个线程有自己的&#xff0c;例如&…