rag-给一篇几百页的pdf，如何从中找到关键信息并汇总出关系图

rag-给一篇几百页的pdf，如何从中找到关键信息并汇总出关系图

devtools/2025/3/21 1:59:03/

小思考

对pdf肯定要做模糊chunk，能用模型切分就用模型切分，不能用模型就用规则，规则要尽可能保存连续文本，特殊数据格式（图、表格）必须完整保存，必须能被捕捉到。这些独立的表格or图数据，也要单独做embedding，以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法，基于搜索的、基于传统词频的、基于关键字的。。。
假设已经找到了信息所在的目标，如果它是个表格，怎么提取信息呢？首先，不能武断地直接让模型总结出最终关系图，缺少推理的LLM性能很差，所以需要先提取出目标信息中存在的所有与问题相关的单条信息，实现表格+文字->文字的转换，然后总结该文字，做成可解析的图表达，例如以三元组方式重写文字。最后，获得一个粗糙的关系图。
关系图并非完全可用，其中可能涉及实体消歧和同义路径合并的任务，所以还要作后处理。

http://www.ppmy.cn/devtools/168777.html

相关文章

【第14届蓝桥杯】软件赛CB组省赛

【第14届蓝桥杯】软件赛CB组省赛

个人主页：Guiat 归属专栏：算法竞赛真题题解文章目录 A. 日期统计B. 01串的熵C. 冶炼金属D. 飞机降落E. 接龙数列F. 岛屿个数G. 子串简写H. 整数删除I. 景区导游J. 砍树正文总共10道题。 A. 日期统计【题目】日期统计【分析】【答案】235 【AC_…

阅读更多...

STM32 - 在机器人领域，LL库相比HAL优势明显

STM32 - 在机器人领域，LL库相比HAL优势明显

在机器人控制器、电机控制器等领域的开发，需要高实时性、精细化控制或者对代码执行效率、占用空间有较高要求。所以，大家常用的HAL库明显不符合要求。再加上，我们学习一门技术，一定要学会掌握底层的原理。MCU开发的底层就是寄存器…

阅读更多...

Spring WebFlux之流式输出

Spring WebFlux之流式输出

🎉🎉🎉🎉🎉🎉 欢迎访问的个人博客：https://swzbk.site/，加好友，拉你入福利群 🎉🎉🎉🎉🎉🎉 流式输…

阅读更多...

辉视SIP：编织酒店智慧沟通的“声”动网络

辉视SIP：编织酒店智慧沟通的“声”动网络

在酒店这一追求极致服务与体验的行业中，辉视SIP广播对讲系统以其卓越的性能和广泛的应用场景，成为酒店内部沟通协作、应急响应及日常运营管理的得力助手，为提升酒店服务质量、创造卓越宾客体验开辟了新的路径。一、即时通讯，构建…

阅读更多...

【视频】H.264的码率和图像质量

【视频】H.264的码率和图像质量

1、简述分辨率、帧率、I帧设置不变的情况下，码率过低时，IP摄像机如果没有足够的带宽来传输高质量的图像，便会抹掉一些细节，导致出现马赛克，尤其是动态性强的画面（比如：运动的云台、非固定的摄像头）。 2、计算码率 1）码率的基础理论公式为：码率 (bps) = 分辨率像…

阅读更多...

【eNSP实战】三层交换机使用ACL实现网络安全

【eNSP实战】三层交换机使用ACL实现网络安全

拓图要求： vlan1可以访问Internetvlan2和vlan3不能访问Internet和vlan1vlan2和vlan3之间可以互相访问PC配置如图所示，这里不展示 LSW1接口vlan配置 vlan batch 10 20 30 # interface Vlanif1ip address 192.168.40.2 255.255.255.0 # interface Vla…

阅读更多...

工程化与框架系列（35）--前端微服务架构实践

工程化与框架系列（35）--前端微服务架构实践

前端微服务架构实践 🏗️ 引言随着前端应用规模的不断扩大，微服务架构在前端领域的应用越来越广泛。本文将深入探讨前端微服务架构的实现方案、最佳实践和相关工具。微服务架构概述前端微服务架构主要包括以下方面： 应用拆分&#xf…

阅读更多...

mybatis集合映射association与collection

mybatis集合映射association与collection

官方文档：MyBatis的一对多关联关系一、用途一对一：association 一对多：collection 二、association 比较容易理解，可参考官方文档三、collection <?xml version"1.0" encoding"UTF-8"?> &l…

阅读更多...

最新文章