DB-GPT系列(四):DB-GPT六大基础应用场景part1

news/2024/11/16 19:44:12/

一、基础问答

进入DB-GPT后,再在线对话默认的基础功能就是对话功能。这里我们可以和使用通义千问、文心一言等在线大模型类似的方法, 来和DB-GPT进行对话。

但是值得注意的是,DB-GPT的输出结果是在内置提示词基础之上进行的回答,也就是说在DB-GPT中我们传输给模型任何问题,都会经过提示词模板修改后传输给底层模型。

可以在探索广场中找到Chat Normal功能

二、知识库问答

Chat Knowledge(知识库对话)借助RAG实现私有知识库问答,用户可以自定义传输企业业务说明文档、专家文档或数据字典等信息,并围绕相关问题进行问答,从而辅助用户快速了解企业业务,或辅助进行业务决策等。

知识库问答的操作主要分为以下几个步骤:

  • 创建知识库
  • 上传文档知识
  • 等待文档切片+向量化
  • 开始知识库对话

下面对这几个步骤进行逐一说明

1、创建知识库

应用管理内切换到知识库tab页,点击创建知识库

填写知识库基础配置:

  • 知识库名称:起一个贴切知识库内容的名字
  • 存储类型:有Vector Store、Knowledge Graph、Full Text
  • 领域类型:目前只有Normal
  • 描述:写一下知识库简要的描述

这里的存储类型Vector Store表示向量存储、Knowledge Graph表示知识图谱存储、Full Text表示全文存储。

2、上传文档知识

接着在2 知识库类型中,根据自身的文档类型选择进行文档进行上传。

目前支持的文档类型有:

  • 文本:填写原始文本内容
  • 网址:读取在线URL的内容、
  • 文档:目前支持文档类型有PDF, PowerPoint, Excel, Word, Text, Markdown, Zip, Csv
  • 语雀文档:读取语雀(语雀,为每一个人提供优秀的文档和知识库工具 · 语雀)的在线文档内容

这里以上传本地word文档为例子,上传界面如下:

我们上传的文档其实是上传到DB-GPT运行的服务器上(例如公司服务器),本质上 其实还是“本地运行”,并不会存在数据泄露的风险。具体每个知识库文档地址为: /root/autodltmp/DB-GPT/pilot/data

3、等待文档切片+向量化

接下来回到DB-GPT知识库创建页面,可以继续选择文本切分方式,除非特殊情况,推荐选择默认的自动切分方法,然后点击Process即可。

DB-GPT支持下面四种切分方法:

  • 自动切片
  • chunk size
  • paragraph
  • separator

(1)自动切片

不需要设置任何分片参数

(2)chunk size

通过设置chunk_size、chunk_overlap两个参数来控制切分。

chunk_size:对输入文本序列进行切分的最大长度。

chunk_overlap:相邻两个chunk之间的重叠token数量。为了保证文本语义的连贯性,相邻chunk会有一定的重叠。chunk_overlap控制这个重叠区域的大小。

(3)paragraph

通过设置分隔符来区分自然段

查看文档切分进度

可以查看文档的具体切分结果

4、开始知识库对话

对话会默认载入知识库基本背景,比如当我们输入你好,你擅长什么?时,回答会围绕DBGPT的知识库相关内容进行问答

查看DB-GPT后台的处理情况

DB-GPT实现的私有知识库问答流程远比最热门RAG之一的LangChain-CahtChat复杂,在后续解读DB-GPT项目源码的文章会介绍

三、ChatExcel功能

Chat Excel(Excel对话)可以围绕某个Excel数据文件进行快速分析,允许用户上传数据文件并直接对其进行分析。

在下载的DB-GPT源码目录DB-GPT\docker\examples\excel下,有一个example.xlsx的示例excel文件。

该数据集数据集包含关于各种细分市场、国家、产品和日期的销售交易信息。包括折扣档次、销售单 位、定价、总销售额、成本、利润,以及交易的月份和年份等详细信息,基本情况如下:

上传了文件之后,发现系统会自动创建一段总结分析。

这里其实是在默认提示词模板作用下,自动对数据文件进行的分析。另外返回的结果是英文,也跟系统的默认提示词有关。后续解读DB-GPT项目源码的文章会介绍如何设置并修改这些提示词模板。

接下来,我们可以进一步提问题继续分析。

例如输入分析不同产品在不同国家的销售趋势,找出一些在某些国家销售势头好的产品。

分析结果如下:

在SQL页会看到DB-GPT也会将分析转换为SQL语句。

从SQL结果来看,很好得理解了上面问题的分析意图。

SELECTCountry,Product,SUM(Sales) AS TotalSales
FROMexcel_data
GROUP BYCountry,Product
ORDER BYCountry,TotalSales DESC;

上传完的excel数据文件数据,也保存在服务器的/root/DB-GPT/pilot/data/文件夹内


http://www.ppmy.cn/news/1547524.html

相关文章

Java项目实战II基于微信小程序的实习记录(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在高等教育…

spark.default.parallelism 在什么时候起作用,与spark.sql.shuffle.partitions有什么异同点?

spark.default.parallelism 和 spark.sql.shuffle.partitions 是 Spark 中两个控制并行度的配置参数,但它们作用的场景和用途不同: spark.default.parallelism 用途:spark.default.parallelism 用于控制 RDD 中的默认分区数。适用场景&…

音视频入门基础:MPEG2-TS专题(4)——使用工具分析MPEG2-TS传输流

一、引言 有很多工具可以分析MPEG2-TS文件/流,比如Elecard Stream Analyzer、PROMAX TS Analyser、easyice等。下面一一对它们进行简介(个人感觉easyice功能更强大一点)。 二、Elecard Stream Analyzer 使用Elecard Stream Analyzer工具可以…

【mysql】使用宝塔面板在云服务器上安装MySQL数据库并实现远程连接

前言 使用宝塔Linux面板安装MySQL数据库并实现远程连接 使用宝塔面板安装mysql 宝塔面板,华为云开放3306端口 一些命令 // 命令行连接数据库 mysql -uroot -p // MySQL 5 版本 GRANT ALL ON *.* TO root% IDENTIFIED BY 替换成你的root密码 WITH GRANT OPTION; // …

C++ 数据结构详解

目录 C 数据结构详解 引言 1. 数组 (Array) 示例代码 2. 向量 (Vector) 示例代码 3. 链表 (List) 示例代码 4. 栈 (Stack) 示例代码 5. 队列 (Queue) 示例代码 6. 集合 (Set) 示例代码 7. 映射 (Map) 示例代码 C 数据结构详解 引言 数据结构是计算机科学中的…

集合的介绍与比较器的应用

1.集合: 是一种容器,一种变量类型,跟数组很像 数组的缺点: A.数组的空间长度固定,一旦确定不可以更改。多了浪费,少了报错。 B.使用数组 操作数据的时候,【删除,增加】效率比较低。…

RTSP播放器EasyPlayer.js播放器UniApp或者内嵌其他App里面webview需要截图下载

EasyPlayer.js H5播放器,是一款能够同时支持HTTP、HTTP-FLV、HLS(m3u8)、WS、WEBRTC、FMP4视频直播与视频点播等多种协议,支持H.264、H.265、AAC、G711A、Mp3等多种音视频编码格式,支持MSE、WASM、WebCodec等多种解码方…

sqli-labs靶场9-12关(每日4关练习) 持续更新!!!

Less-9 我们先开始判断注入点,闭合方式,数据列数,联合注入这一套下来,发现页面保持不变,大家肯定会想到盲注,上一题是布尔盲注,那这道题会不会是布尔盲注呢??&#xff1…