盘点开源ChatGPT建立的私有知识库

news/2024/11/18 12:46:15/

ChatGPT 可以落地的一个行业就是建立私有知识库,将ChatGPT落地TO B行业,可基于ChatGPT和私有数据构建智能知识库和个性化AI。

这个应该是ChatGPT 最热的一个创业方向。

可能出现的产品,有智能AI客服、企业内部/外部知识库、个人知识库,适用于医疗、法律、金融等行业。

在ChatGPT 下,建立私有知识库,只需上传文档、定义配置、Chat就可搭建AI客服/AI知识库。

下面介绍几个开源的,基于ChatGPT建立的私有知识库,也会不断的更新。

Quivr:让数据管理更智能更高效

摘要:Quivr是一个功能强大而高效的数据管理工具,可将本地文件向量化并存储到云端,随时可查询对话。它采用先进的人工智能技术,支持多种文件格式,如文本、Markdown、PDF、音频和视频等,并支持生成式人工智能。Quivr专为速度和效率而设计,保证数据安全可靠,另外还是开源且免费使用的。

项目地址:https://github.com/StanGirard/quivr

在这里插入图片描述

gpt4-pdf-chatbot-langchain-chroma

介绍如何使用GPT-4 api基于LangChain、Chroma、Typescript、Openai和Next.js等技术栈创建可处理多个大型PDF文件的ChatGPT聊天机器人。LangChain是一个构建可扩展AI/LLM应用和聊天机器人的框架,Chroma则用于存储嵌入向量和文本,以便以后检索类似PDF文档。包含操作指南、教程视频和错误排查部分。如果有疑问可加入Discord交流。

项目地址:https://github.com/mayooear/gpt4-pdf-chatbot-langchain

在这里插入图片描述

langchain-ChatGLM

一种基于 langchain 思想实现的本地知识库问答应用,旨在为中文场景与开源模型提供友好支持,可离线运行。该应用能够使用 ChatGLM-6B 等大语言模型直接接入,或通过 fastchat api 形式接入其他模型。本项目实现基于文件加载,文本分割,文本向量化,问题向量化,文本匹配,上下文添加等流程,可全部使用开源模型离线私有部署。

在这里插入图片描述

项目地址:https://github.com/imClumsyPanda/langchain-ChatGLM

PrivateGPT

通过利用本地LLMs的能力,在不依赖于互联网的情况下创建一个针对您的文档的问答聊天机器人。确保完全的隐私和安全性,因为您的数据永远不会离开您的本地执行环境。即使没有互联网连接,也可以无缝地处理和查询您的文档。受imartinez启发。

在这里插入图片描述

项目地址:https://github.com/imClumsyPanda/langchain-ChatGLM

ChatFiles

上传文件然后与之对话.

在这里插入图片描述

项目地址:https://github.com/guangzhengli/ChatFiles

pdfGPT

当你将大量的文本传递给Open AI时,它会受到4K令牌限制。它无法接受整个pdf文件作为输入。有时,Open AI变得过于啰嗦,并返回与您的查询无关的、不直接相关的回复。这是因为Open AI使用了低质量的嵌入。ChatGPT不能直接与外部数据交互。有一些解决方案使用Langchain,但如果实现不正确,它会“吃掉”大量令牌。

项目地址:https://github.com/bhaskatripathi/pdfGPT

ChatLongDoc

本项目打破了使用OpenAI Chat-LLMs(如ChatGPT)的长度限制,使您能够与任何长文档进行交流。它加快了对内容的理解,促进了有价值的见解的获取。与ChatPDF相比,它支持各种文件格式,包括PDF、doc、docx、txt和Web URL。此项目的实现易于跟随、扩展,并且对于集成到其他应用程序非常高效。
欢迎您查看我们的ChatGPT插件和Chrome扩展。

项目地址:https://github.com/webpilot-ai/ChatLongDoc


http://www.ppmy.cn/news/431914.html

相关文章

电信号标定中,为什么多采用串行标定,而不是并行标定?

在电信号标定中,串行标定和并行标定是两种不同的标定方法。串行标定是指逐个测量和校准电气设备的方法,而并行标定则是指同时测量和校准多个电气设备的方法。在实际应用中,串行标定通常比并行标定更常用,这主要有以下几点原因&…

从零开始搭建群众权益平台(四)

这篇博客我们可以添加以下功能以进一步提高我们的应用程序的复杂性和密码找回的功能性: 复杂的权限控制: 对于更复杂的权限控制,我们可能需要引入新的数据模型来管理角色和权限。例如,我们可以创建一个Role模型和一个Permission…

【数据分析之道-Matplotlib(九)】Matplotlib棉棒图

文章目录 专栏导读1、Matplotlib棉棒图stem()基本语法2、Matplotlib棉棒图stem()定义样式2.1linefmt参数2.2markerfmt参数2.3举例一:直线样式2.4举例二:圆点样式 3、棉棒图案例实战3.1绘制每月销量的棉棒图3.2绘制每月销量与平均销量之差 专栏导读 ✍ 作…

关于jmeter body Data 传参报错message“:“\u7528\u6237\u540d \u4e0d\u80fd\u4e3a\u7a7a\u3002“的解决方法

因为之前一直使用Parameters传参或者使用postman 突发奇想想用用jmeter测测接口,POST接口习惯性的把参数写到Body Date里 然后就发现报错了 后面一直以为是json格式没写对 弄了半天发现jmeter Body Date传参需要加HTTP信息请求体管理器来说明Body Date的类型 步骤 …

python写入文件乱码\u559c\u6b22\u4e00\u4e2a\u4eba

当python爬虫出来的数据在txt文件显示为\u559c\u6b22\u4e00\u4e2a\u4eba乱码时,解决方案为: def save_content_list(self, content_list): # 保存with open("qiushi.txt", "a",encoding"gbk") as f:for content in conte…

unity将 \u4E00 这种 编码 转汉字 方法

unity中 直接使用 JsonMapper.ToJson(对象),取到的字符串,里面汉字可能是\u4E00类似这种 其实也不用转,服务器会通过类似fastjson发序列化的方式,将json转对象,获取对象的值就是中文 但是有时服务器要求将传参中字符串…

2022 RoboCom 世界机器人开发者大赛-本科组(省赛)RC-u4 攻略分队

本题思路较为清晰&#xff0c;考场时结构体内部数组开小了&#xff0c;导致wa。 #include <bits/stdc.h>using namespace std; #define ll long long const int N 1e5 10; int v[10]; int a[10][4]; struct node {int b[7];int num1 0;int c[7];int num2 0;int dx;i…

U4D和Blender怎么选

C4D Blender 怎么选 建模 Blender 更倾向于硬表面模型和角色模型C4D 广泛 材质、灯光、渲染 C4D oc渲染器 贵Blender 自带Cycles渲染器可选GPU或CPU渲染 动画 C4D 运动图形系统Blender 角色动画系统 插件 C4D支持的xparticle粒子功能特别强大 C4D结合Ps Ae多用于广告领…