rag-给一篇几百页的pdf,如何从中找到关键信息并汇总出关系图

devtools/2025/3/21 1:59:03/

小思考

  1. 对pdf肯定要做模糊chunk,能用模型切分就用模型切分,不能用模型就用规则,规则要尽可能保存连续文本,特殊数据格式(图、表格)必须完整保存,必须能被捕捉到。这些独立的表格or图数据,也要单独做embedding,以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法,基于搜索的、基于传统词频的、基于关键字的。。。
  2. 假设已经找到了信息所在的目标,如果它是个表格,怎么提取信息呢?首先,不能武断地直接让模型总结出最终关系图,缺少推理的LLM性能很差,所以需要先提取出目标信息中存在的所有与问题相关的单条信息,实现表格+文字->文字的转换,然后总结该文字,做成可解析的图表达,例如以三元组方式重写文字。最后,获得一个粗糙的关系图。
  3. 关系图并非完全可用,其中可能涉及实体消歧和同义路径合并的任务,所以还要作后处理。

http://www.ppmy.cn/devtools/168777.html

相关文章

【第14届蓝桥杯】软件赛CB组省赛

个人主页:Guiat 归属专栏:算法竞赛真题题解 文章目录 A. 日期统计B. 01串的熵C. 冶炼金属D. 飞机降落E. 接龙数列F. 岛屿个数G. 子串简写H. 整数删除I. 景区导游J. 砍树 正文 总共10道题。 A. 日期统计 【题目】日期统计 【分析】 【答案】235 【AC_…

STM32 - 在机器人领域,LL库相比HAL优势明显

在机器人控制器、电机控制器等领域的开发,需要高实时性、精细化控制或者对代码执行效率、占用空间有较高要求。所以,大家常用的HAL库明显不符合要求。再加上,我们学习一门技术,一定要学会掌握底层的原理。MCU开发的底层就是寄存器…

Spring WebFlux之流式输出

🎉🎉🎉🎉🎉🎉 欢迎访问的个人博客:https://swzbk.site/,加好友,拉你入福利群 🎉🎉🎉🎉🎉🎉 流式输…

辉视SIP:编织酒店智慧沟通的“声”动网络

在酒店这一追求极致服务与体验的行业中,辉视SIP广播对讲系统以其卓越的性能和广泛的应用场景,成为酒店内部沟通协作、应急响应及日常运营管理的得力助手,为提升酒店服务质量、创造卓越宾客体验开辟了新的路径。 一、即时通讯,构建…

【视频】H.264的码率和图像质量

1、简述 分辨率、帧率、I帧设置不变的情况下,码率过低时,IP摄像机如果没有足够的带宽来传输高质量的图像,便会抹掉一些细节,导致出现马赛克,尤其是动态性强的画面(比如:运动的云台、非固定的摄像头)。 2、计算码率 1)码率的基础理论公式为: 码率 (bps) = 分辨率像…

【eNSP实战】三层交换机使用ACL实现网络安全

拓图 要求: vlan1可以访问Internetvlan2和vlan3不能访问Internet和vlan1vlan2和vlan3之间可以互相访问PC配置如图所示,这里不展示 LSW1接口vlan配置 vlan batch 10 20 30 # interface Vlanif1ip address 192.168.40.2 255.255.255.0 # interface Vla…

工程化与框架系列(35)--前端微服务架构实践

前端微服务架构实践 🏗️ 引言 随着前端应用规模的不断扩大,微服务架构在前端领域的应用越来越广泛。本文将深入探讨前端微服务架构的实现方案、最佳实践和相关工具。 微服务架构概述 前端微服务架构主要包括以下方面: 应用拆分&#xf…

mybatis集合映射association与collection

官方文档&#xff1a;MyBatis的一对多关联关系 一、用途 一对一&#xff1a;association 一对多&#xff1a;collection 二、association 比较容易理解&#xff0c;可参考官方文档 三、collection <?xml version"1.0" encoding"UTF-8"?> &l…