Crawl4AI:一个为大型语言模型(LLM)和AI应用设计的网页爬虫和数据提取工具实战

devtools/2024/12/23 21:23:40/

这里写目录标题

  • 一、crawl4AI功能及简介
    • 1、简介
    • 2、特性
  • 二、项目地址
  • 三、环境安装
  • 四、大模型申请
  • 五、代码示例
    • 1.生成markdown
    • 2.结构化数据

crawl4AI_1">一、crawl4AI功能及简介

1、简介

Crawl4AI 是一个开源的网页爬虫和数据抓取工具,一个python项目,主要为大型语言模型(LLM)和 AI 应用提供数据采集和处理服务。

2、特性

  • **开源免费:**遵循 MIT 许可协议或 Apache-2.0 许可协议,开发人员可自由使用、修改和分发源代码,无需支付费用;
  • **专为 LLM 设计:**能够将网页数据处理和清洗成适合 LLM 使用的格式,如 JSON、干净的 HTML 和 Markdown 等,便于后续直接应用于模型训练;
  • **高效性能:**支持并行处理多个 URL,可同时抓取和处理多个网页,极大地提高了数据收集效率,减少大规模数据收集所需时间;
  • **多功能支持:**可以提取网页中的文本、图片、音频、视频等媒体标签,以及元数据、内外部链接等,并能对页面进行截图等操作;
  • **高度可定制:**用户可自定义认证、请求头信息、爬取前页面修改、用户代理以及 JavaScript 脚本执行等,还能根据特定需求自定义爬取深度、频率和提取规则,以适应不同网页结构和数据类型。

二、项目地址

github地址: https://github.com/unclecode/crawl4ai

Crawl4ai官网: https://crawl4ai.com/

三、环境安装

python3.7+
windows8+

四、大模型申请

  • 月之暗面 / Kimi chat

    API key 申请地址:https://platform.moonshot.cn/console/api-keys
    API 文档地址:https://platform.moonshot.cn/docs
    API 定价信息:https://platform.moonshot.cn/docs/price/chat

  • 百度 / 文心一言

    API申请地址:https://console.bce.baidu.com/qianfan/ais/console/applicationConsole/application
    API 文档地址:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/flfmc9do2
    API 定价信息:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Blfmc9dlf

  • 智谱 / GLM

    API key 申请地址:https://bigmodel.cn/usercenter/apikeys
    API 文档地址:https://bigmodel.cn/dev/api
    API 定价信息:https://open.bigmodel.cn/pricing

  • MiniMax

    API key 申请地址:https://platform.minimaxi.com/user-center/basic-information/interface-key
    API 文档地址:https://platform.minimaxi.com/document/notice
    API 定价信息:https://platform.minimaxi.com/document/price

  • 阿里 / 通义千问 (Qwen)

    API key 申请地址:https://dashscope.console.aliyun.com/apiKey
    API 文档地址:https://help.aliyun.com/zh/dashscope/developer-reference
    API 定价信息:https://dashscope.console.aliyun.com/billing

  • 科大讯飞 / 讯飞星火 (Spark)

    API key 申请地址:https://console.xfyun.cn/services/cbm
    API 文档地址:https://www.xfyun.cn/doc/spark/Web.html
    API 定价信息:https://xinghuo.xfyun.cn/sparkapi

  • DeepSeek(深度求索)

    API key 申请地址:https://platform.deepseek.com/api_keys
    API 文档地址:https://platform.deepseek.com/api-docs/zh-cn/
    API 定价信息:https://platform.deepseek.com/api-docs/zh-cn/pricing

五、代码示例

1.生成markdown

import asyncio
from crawl4ai import AsyncWebCrawlerasync def main():async with AsyncWebCrawler() as crawler:result = await crawler.arun(url="https://example.com")print(result.markdown)  # Print clean markdown contentif __name__ == "__main__":asyncio.run(main())

运行结果如下:
在这里插入图片描述

2.结构化数据

import asyncio
import json
import os
from crawl4ai import LLMExtractionStrategy, AsyncWebCrawler
from tenacity import retry, stop_after_attempt, wait_exponential
class LLMExtractionError(Exception):pass
@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
async def extract_with_retry(crawler, url, extraction_strategy):try:result = await crawler.arun(url=url, extraction_strategy=extraction_strategy, bypass_cache=True)print(result)print(result.extracted_content)print(json.loads(result.extracted_content))return json.loads(result.extracted_content)except Exception as e:raise LLMExtractionError(f"Failed to extract content: {str(e)}")
async def main():async with AsyncWebCrawler(verbose=True) as crawler:try:content = await extract_with_retry(crawler,"https://shop.health-100.cn/goods",LLMExtractionStrategy(provider="openai/moonshot-v1-8k",api_token='这是需要你自己去申请的',instruction="返回当前页面采集的商品的名称和商品价格,json格式返回",base_url='https://api.moonshot.cn/v1'))print("Extracted content:", content)except LLMExtractionError as e:print(f"Extraction failed after retries: {e}")
asyncio.run(main())

输出结果如下:
在这里插入图片描述

以上就是通过crawl4AI的技术将任意网页数据采集生成markdown数据,然后又由大模型将markdown数据结构化成json数据的实战样例。


http://www.ppmy.cn/devtools/144799.html

相关文章

OpenEuler Linux上怎么测试Nvidia显卡安装情况

当安装好显卡驱动后怎么样知道驱动程序安装好了,这里以T400 OpenEuler 正常情况下,我们只要看一下nvidia-smi 状态就可以确定他已经正常了 如图: 这里就已经确定是可以正常使用了,这里只是没有运行对应的程序,那接来下我们就写一个测试程序来测试一下:以下代码通过AI给出然后…

shell脚本案例

脚本一:打印当前系统登录用户列表 #!/bin/bash # 使用 who 命令获取当前登录用户信息并输出 who解释:who 命令用于显示当前登录系统的用户信息,包括用户名、登录终端、登录时间等。此脚本直接执行 who 命令并将结果输出到终端。 脚本二&…

【漫话机器学习系列】012.深度学习(Deep Learning)基础

深度学习基础概述 深度学习(Deep Learning)是一种基于人工神经网络的大规模机器学习方法,在图像识别、语音处理、自然语言理解等领域具有广泛的应用。深度学习模型的构建包括数据准备、损失函数设计、优化算法选择、网络架构搭建、测试数据验…

NGINX的安装和配置(Linux环境)

目录 NGINX 安装方式1、 离线编译安装2、 在线仓库安装 NGINX 常用命令1、进程管理命令2、信息查看命令 NGINX 配置文件1、进程使用的配置2、配置文件格式3、配置文件层级 NGINX 全局配置1、全局配置常用指令2、连接相关配置 NGINX 配置MIME1、MIME 标准2、types 配置块3、defa…

springboot连接mongo性能优化参数配置

在 Spring Boot 中连接 MongoDB 时,性能优化是一个重要的环节。Spring Boot 提供了多种配置选项,可以通过调整这些参数来优化 MongoDB 的连接性能。以下是一些常见的性能优化参数及其配置建议。 1. 连接池配置 MongoDB 连接池的配置是性能优化的核心。通…

浏览器可以直接请求 websocket

一、原生支持 浏览器原生支持 WebSocket 协议,这使得开发者可以直接在 JavaScript 代码中使用 WebSocket 来建立与服务器的双向通信通道。 const socket new WebSocket("ws://localhost:8080");socket.addEventListener("open", function (e…

LeetCode---428双周赛

题目列表 3386. 按下时间最长的按钮 3387. 两天自由外汇交易后的最大货币数 3388. 统计数组中的美丽分割 3389. 使字符频率相等的最少操作次数 一、按下时间最长的按钮 题意要求找到按钮按下时间(即与它前一次按下按钮的时间差)最大的下标,如果存在两个相同的最…

【C语言1】C语言常见概念(总结复习篇)——库函数、ASCII码、转义字符

文章目录 前言一、C语言是什么?二、编译器的选择——VS2022三、main函数四、printf函数五、库函数六、关键字七、字符和ASCII编码八、字符串和\0九、转义字符十、注释总结 前言 上周考完四级(明年再战hh)和两门考试,接下来一个月将迎来其他学科的期末考…