二、使用langchain搭建RAG:金融问答机器人--数据清洗和切片

devtools/2024/12/23 4:32:51/

选择金融领域的专业文档作为源文件

这里选择 《博金大模型挑战赛-金融千问14b数据集》,这个数据集包含若干公司的年报,我们将利用这个年报搭建金融问答机器人
具体下载地址 这里

在这里插入图片描述

git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git

具体目录如下:
在这里插入图片描述
这里直接使用已经识别的纯文本数据,即pdf_txt_file目录下的文件。

选择词向量模型

这里选用m3e-base。M3E是专注于中文文本处理,具有强大的文本处理能力和灵活的部署选项,适合资源受限或需要私有化的应用场景

这里

在这里插入图片描述

git clone https://www.modelscope.cn/Jerry0/m3e-base.git

读取与清洗数据

1, 读取文件列表

python">import osdir_path = "bs_challenge_financial_14b_dataset/pdf_txt_file"
all_files = os.listdir(dir_path)
print(all_files)

在这里插入图片描述
2,清洗数据
从结果我们可以观察到文件名都是乱码,我们需要把文件名改成公司名,可以一看就看出是哪个公司的年报,并且在后续处理的时候把公司名加入到每个chuck中,在后续检索的时候对应指定公司的query就能匹配这个公司相关的一系列信息。
(1),读取数据

python">import re
for file in all_files:with open(os.path.join(dir_path, file), "r",encoding = "utf-8") as f:lst = f.readlines()pattern = ".*发行人.*股份有限公司\n"name = ""         for line in lst[-20:]:            if re.match(pattern, line): name = linename = name.split(":")[-1]                breakif name == "" :pattern = ".*股份有限公司\n"for line in lst:            if re.match(pattern, line): name = lineif ":" in name:name = name.split(":")[-1]                break        name = name.strip() #找到公司名后:创建一个新文件夹存放if name != "" :           print(file,name)try:with open("financial_dataset/{}.txt".format(name), "w",encoding = "utf-8") as f:for line in lst:f.write(line)except Exception as e:print(e)continue

(2)经过研究,文本里会含有多个股份有限公司,所以想过滤一次“.*发行人.*股份有限公司”,再过滤“.*股份有限公司” 。然后把新文件放到独立的目录下

python">import osdir_path = "financial_dataset"
files = os.listdir(dir_path)
files

在这里插入图片描述
(3)然后对文件名做最后的筛选,公司名称一般不超过20个字符。

python">new_files = []
for item_file in files:if len(item_file) > 20:continueelse:if " " in item_file:continueif "、" in item_file:continuenew_files.append(item_file)
new_files

在这里插入图片描述
至此数据清洗完毕。如果还有其他需求可以自行再根据规则清洗。

读取无结构文本内并切片

1,使用UnstructuredFileLoader加载文件

python">def get_all_text(file_list):documents = []#遍历所有目标文件#使用tqdm可视化库,以时间轴的形式展示出来for one_file in tqdm(file_list):print(one_file)file_suffix = one_file.split(".")[-1]if file_suffix == "txt":loader = TextLoader(one_file,encoding = "utf-8")else:continuedocuments.extend(loader.load())return documentsfile_list = [os.path.join(dir_path, item) for item in new_files]
docs = get_all_text(file_list)

在这里插入图片描述
2,数据切片
由于1个文档的内容比较多,超过大模型的上下文窗口限制,所以需要把数据切片。
调用langchain里的text_splitter分割为chunk,每个chunk设置为350个大小,同时overlap为150,也就是前一个chunk的后150个字符跟后一个chunk的前150个字符是一样的。通过这样的方式避免在分chunk的时候遗漏相关信息

python">from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(chunk_size=350, chunk_overlap=150)
split_docs = text_splitter.split_documents(docs)
print(split_docs[0])

在这里插入图片描述
可以看page_content里没公司名称,但我们在query的时候希望与公司相关,所有把公司名也放到page_content里

python">for one_chunk in split_docs:one_chunk.page_content = one_chunk.metadata["source"].split("/")[-1] +  one_chunk.page_content + one_chunk.metadata["source"].split("/")[-1]
print(split_docs[0])

在这里插入图片描述

数据向量化并保存到向量数据库中

使用词向量模型把前面切分的chunk转化成词向量,保存到向量数据库中。

python">from langchain_huggingface import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="m3e-base") from langchain.vectorstores import Chroma
# 定义持久化路径
persist_directory = 'data_base/chroma'
# 加载数据库
vectordb = Chroma.from_documents(documents=split_docs[:20000],#由于自己电脑性能有限,如果很久没完成的时候,可以重新启动执行,改成取1000或者500。记得删除已经生成的向量数据库文件。embedding=embeddings,persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
)

会自动保存到磁盘上:
在这里插入图片描述

数据清洗和切片已完毕。

项目源代码:https://gitee.com/ailianshuo/finance-bot


http://www.ppmy.cn/devtools/144581.html

相关文章

聚观早报 | 百度回应进军短剧;iPad Air将升级OLED

聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 12月18日消息 百度回应进军短剧 iPad Air将升级OLED 三星Galax S25 Ultra配色细节 一加Ace 5系列存储规格 小米…

JAVA数字人创作文案视频链接提取数字人源码小程序+公众号+APP+H5

JAVA数字人创作文案提取与生成系统:全能型内容创作与运营解决方案 在当今数字化内容井喷的时代,如何高效、创新地生产并传播内容,成为了众多内容创作者、商户乃至企业面临的重要课题。我们的JAVA数字人创作文案提取与生成系统,正…

【橘子微服务】spring cloud function的编程模型

简介 在我们初探了saga的分布式事务之后,我们后面会基于springcloud function(简称:scf)和springcloud stream(scs)实现一下Choreography模式的saga。所以在此之前我们需要了解一下这两个组件的知识。首先我们来看scf的一些概念。 一、简单使用 在进入概念之前&a…

datasets 笔记:加载数据集(基本操作)

参考了huggingface的教程 1 了解数据集基本信息( load_dataset_builder) 在下载数据集之前,通常先快速了解数据集的基本信息会很有帮助。数据集的信息存储在 DatasetInfo 中,可能包括数据集描述、特征和数据集大小等信息。&…

数据结构期末复习题

第一次作业——绪论 1.数据结构被形式地定义为(D,R),其中D是( B )的有限集。 A.算法 B.数据元素 C.数据操作 D.逻辑结构 2.数据结构是一门研究非数值计算的程序设计问题中计算机的( A )以及它们之间的关系和运算等的学科。 …

从 0 到 1 掌握 Java 类加载器:踩坑与反转的奇妙之旅

前言 Java 类加载器,看似一个晦涩难懂的概念,却在整个 Java 应用的生命周期中扮演着极为重要的角色。它负责加载类到 JVM 中,并且控制着类的访问与隔离。在你深入理解 Java 应用时,类加载器可能是一个你避而不谈的“黑箱”&#…

如何在Qt中应用html美化控件

在Qt中应用HTML美化控件,主要可以通过以下几种方式: 使用QWebEngineView:QWebEngineView是基于Chromium引擎的控件,用于显示和交互HTML内容。它支持现代Web标准和技术,如HTML5、CSS3和JavaScript。你可以通过以下步骤…

Halcon中dots_image(Operator)算子原理及应用详解

在HALCON中,dots_image算子是一个用于增强图像中圆点效果的强大工具,特别适合于点的分割,以及OCR(光学字符识别)应用程序中增强点状印刷字体。以下是对dots_image (ImageResult, DotImage, 5, ‘dark’, 2)算子原理及应…