大模型爬虫—ScrapeGraphAI

ops/2024/9/22 23:57:20/

大模型爬虫—ScrapeGraphAI

一、介绍

ScrapeGraphAI是一个网络爬虫 Python 库,使用大型语言模型和直接图逻辑为网站和本地文档(XML,HTML,JSON 等)创建爬取管道。

只需告诉库您想提取哪些信息,它将为您完成!

img

scrapegraphai有三种主要的爬取管道可用于从网站(或本地文件)提取信息:

  • SmartScraperGraph: 单页爬虫,只需用户提示和输入源;
  • SearchGraph: 多页爬虫,从搜索引擎的前 n 个搜索结果中提取信息;
  • SpeechGraph: 单页爬虫,从网站提取信息并生成音频文件。
  • SmartScraperMultiGraph: 多页爬虫,给定一个提示 可以通过 API 使用不同的 LLM,如 OpenAI

http://www.ppmy.cn/ops/113924.html

相关文章

数字英文验证码识别 API 对接说明

数字英文验证码识别 API 对接说明 本文将介绍一种 数字英文验证码识别 API 对接说明,它是基于深度学习技术,可用于识别变长英文数字验证码。输入验证码图像的内容,输出验证码结果。 接下来介绍下 数字英文验证码识别 API 的对接说明。 注册…

谷粒商城のElasticsearch

文章目录 前言一、前置知识1、Elasticsearch 的结构2、倒排索引 (Inverted Index)2.1、 索引阶段2.2、查询阶段 二、环境准备1、安装Es2、安装Kibana3、安装 ik 分词器 三、项目整合1、引入依赖2、整合业务2.1、创建索引、文档、构建查询语句2.2、整合业务代码 后记 前言 本篇介…

详解QT元对象系统用法

文章目录 元枚举 QMetaEnum元方法 QMetaMethod元对象构建 QMetaObjectBuilder元属性 QMetaProperty定义元对象属性获取属性信息与信号和槽结合QML属性访问动态属性元类型 QMetaTypeQt的元对象系统是Qt框架中的一个核心特性,它为Qt应用程序提供了一种动态类型信息机制。这种机制…

HarmonyOS开发实战( Beta5.0)橡皮擦案例实践详解

鸿蒙HarmonyOS开发往期必看: HarmonyOS NEXT应用开发性能实践总结 最新版!“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线!(从零基础入门到精通) 介绍 本示例通过ohos.graphics.drawing库和blendMode颜色混合实…

ubuntu系统插入u盘不识别

fdisk -l Disk /dev/sdb:1.84 TiB,2000398934016 字节,3907029168 个扇区 Disk model: Elements SE SSD 和lsblk显示的都不对 sdb 8:16 0 1.8T 0 disk └─sdb1 8:17 0 1.8T 0 part 要用 sudo mount /dev/sdb1 /home/nvidia/usb//dev/sdb1

关于实时数仓的几点技术分享

一、实时数仓建设背景 业务需求的变化:随着互联网和移动互联网的快速发展,企业的业务需求变得越来越复杂和多样化,对数据处理的速度和质量要求也越来越高。传统的T1数据处理模式已经无法满足企业的需求,实时数据处理成为了一种必…

在 PyCharm 中配置 Anaconda 环境

在 PyCharm 中配置 Anaconda 环境,你需要遵循以下步骤: 打开 PyCharm。 创建一个新项目或打开一个现有项目。 在 PyCharm 中,点击 File > Settings (或 PyCharm > Preferences 在 macOS)。 在弹出的设置窗口中,选择 Pro…

vscode 设置

code runner设置运行代码弹出运行窗口 要让VSCode在输cmd窗口,可以按照以下步骤进行设置: 1. 打开VSCode并进入”文件”->”首选项”->”设置”,或者使用快捷键Ctrl ,。 2. 在设置页面的搜索栏中输入”External Terminal”&#xf…