学术总结Ai Agent中firecrawl(大模型爬虫平台)的超简单的docker安装方式教程

news/2025/2/2 9:23:47/

之前开源了学术总结ai agent,但是对非计算机专业来说,门槛有点高,再加上docker hub镜像被屏蔽,更是不容易上手啊。也有考虑用dify或者扣子去复刻一个,但是从专业用户的角度出发通过界面来拖拽配置实在是不高效,没有自己写代码来的直接,但是对非计算机专业的用户确实不友好。为了降低一下门槛,稍微进行了改进。下面开始正文:

这个开源项目其中有个环节是利用firecrawl抓取论文,然后转成对大模型友好的LLM格式。这个firecrawl如果使用官方云服务是收费的,还有一种方式是本地跑开源的,但这个方式也挺麻烦,需要安装很多包因为网络屏蔽也很容易中断,因此假期抽空,打了个docker镜像共享出来。

如果你自己打镜像,可能遇到node依赖下载问题,go依赖下载问题,基础镜像无法下载。总之中国的网络你懂的。

firecrawl的功能很强大,还是先复习下:

抓取(Scrape):抓取一个URL并将其内容转换为LLM(大语言模型)友好的格式(如Markdown、通过LLM提取的结构化数据、截图、HTML)。

爬取(Crawl):抓取一个网页的所有URL并将其内容转换为LLM友好的格式。

映射(Map):输入一个网站,快速获取该网站的所有URL。

强大功能

  • LLM友好的格式:Markdown、结构化数据、截图、HTML、链接、元数据。
  • 复杂任务:代理、反机器人机制、动态内容(JS渲染)、输出解析、协调。
  • 自定义功能:排除标签、使用自定义头部绕过身份验证墙、设置最大爬取深度等。
  • 媒体解析:PDF、DOCX、图片等格式。
  • 可靠性优先:设计目的是确保无论数据抓取多么复杂,都能获取所需的数据。
  • 操作功能:点击、滚动、输入、等待等,提取数据之前的操作。

下载

「firecrawl-main.zip」链接:https://pan.quark.cn/s/11149b0e701e

解压

unzip firecrawl-main.zip

加载镜像

进入dockers目录执行一下命令

docker load -i firecrawl-api.tar
docker load -i firecrawl-playwright-service.tar
docker load -i firecrawl-worker.tar

启动镜像

进入上层目录,docker-compose.yaml所在的目录,输入

docker-compse up -d

如果你电脑没有这个命令,建议用大模型查一下怎么安装。

测试

输入http://localhost:3002/admin//queues,界面如下:

写demo测试抓取功能

这里可以参考官方说明:https://docs.firecrawl.dev/introduction

各位读者在使用过程中有啥问题可以留言,感谢,欢迎转发!


http://www.ppmy.cn/news/1568660.html

相关文章

ZZNUOJ(C/C++)基础练习1041——1050(详解版)

1041 : 数列求和2 题目描述 输入一个整数n&#xff0c;输出数列1-1/31/5-……前n项的和。 输入 输入只有一个整数n。 输出 结果保留2为小数,单独占一行。 样例输入 3 样例输出 0.87注意sum 1相当于sumsum1 注意sum * 1相当于sumsum*1 C语言版 #include<stdio.h> // 包含…

OpenCV:特征检测总结

目录 一、什么是特征检测&#xff1f; 二、OpenCV 中的常见特征检测方法 1. Harris 角点检测 2. Shi-Tomasi 角点检测 3. Canny 边缘检测 4. SIFT&#xff08;尺度不变特征变换&#xff09; 5. ORB 三、特征检测的应用场景 1. 图像匹配 2. 运动检测 3. 自动驾驶 4.…

从零开始构建一个JAVA项目

本篇文章将从结构框架入手&#xff0c;系统介绍一个完整Java程序的结构步骤&#xff0c;不涉及JAVA基础代码学习。 在本文章中先简单介绍Maven、Spring、MyBatis三种Java类型。 一、分类介绍 首先我们先来了解Java程序的类型&#xff0c;不同类型结构略有区别。Java程序的类型…

arkui-x 页面封装为自定义组件,巧用controller

鸿蒙开发中&#xff0c;有时会需要将某些页面封装为自定义组件&#xff0c;方便复用。 页面的入口为&#xff1a; Entry Componentstruct XXX { 。。。。。。 自定义组件的入口为&#xff1a; Component export struct XXXX { 。。。。。。 但是页面与自定义组件在生命周期…

Python-基于PyQt5,pdf2docx,pathlib的PDF转Word工具

前言:日常生活中,我们常常会跟WPS Office打交道。作表格,写报告,写PPT......可以说,我们的生活已经离不开WPS Office了。与此同时,我们在这个过程中也会遇到各种各样的技术阻碍,例如部分软件的PDF转Word需要收取额外费用等。那么,可不可以自己开发一个小工具来实现PDF转…

Python NumPy(6):修改数组形状、翻转数组、修改数组维度

1 修改数组形状 函数描述reshape不改变数据的条件下修改形状flat数组元素迭代器flatten返回一份数组拷贝&#xff0c;对拷贝所做的修改不会影响原始数组ravel返回展开数组 1.1 numpy.reshape numpy.reshape 函数可以在不改变数据的条件下修改形状&#xff0c;格式如下&#x…

【C++】string类使用详解

目录 &#x1f495;1.string类 &#x1f495;3. String基本功能&#xff08;1&#xff09;&#xff08;2&#xff09;讲解 &#x1f495;4.sting类基本功能&#xff08;3&#xff09; 讲解 &#x1f495;5.string类基本功能&#xff08;4&#xff09; (拷贝构造函数) &#x1…

android 圆形弹窗摄像头开发踩坑——源码————未来之窗跨平台操作

一、飘窗刷脸&#xff0c;拍照采用飘窗 刷脸认证安卓接口采用飘窗具有在不干扰用户主要操作的前提下以醒目方式引导用户完成认证&#xff0c;且能灵活定制样式以提升用户体验和认证效率的优点 二、踩坑只有一个扇形 <?xml version"1.0" encoding"utf-8&quo…