Knowledge Graph Prompting for Multi-Document Question Answering

server/2024/12/23 11:46:06/

题目

知识图谱提示多文档问答

在这里插入图片描述

论文地址:https://arxiv.org/abs/2308.11730
项目地址:https://github.com/YuWVandy/KG-LLM-MDQA

摘要

    大型语言模型 (LLM) 的“预训练、提示、预测”范式在开放域问答 (OD-QA) 中取得了显著成功。然而,很少有研究在多文档问答 (MD-QA) 中探索这一范式,这项任务需要彻底理解文档内容和结构之间的逻辑关联。为了填补这一关键空白,我们提出了一种知识图谱提示 (KGP) 方法来为 MD-QA 提示 LLM 制定正确的上下文,该方法由图构建模块和图遍历模块组成。对于图构建,我们在多个文档上创建一个知识图谱 (KG),其中节点表示段落或文档结构(例如,页面/表格),边表示段落或文档结构关系之间的语义/词汇相似性。对于图遍历,我们设计了一个基于 LLM 的图遍历代理,它跨节点导航并收集支持段落,以协助 MD-QA 中的 LLM。构建的图充当全局标尺,调节段落之间的过渡空间并减少检索延迟。同时,图遍历代理充当本地导航器,收集相关上下文以逐步解决问题并保证检索质量。大量实验强调了 KGP 对 MD-QA 的有效性,表明利用图可以增强 LLM 的快速设计和检索增强生成。我们的代码:https://github.com/YuWVandy/KG-LLM-MDQA。

引言

    由于大型语言模型 (LLM) 的出现,“预训练、提示和预测”范式彻底改变了自然语言处理 (NLP) 在实际应用中的运用,例如开放域问答、事实核查和算术推理 (Chen et al 2017;Thorne et al 2018;Asai et al 2019;Karpukhin et al 2020;Aly et al 2021;Qin et al 2023;Zou and Caragea 2023;Liu, Dong, and Zhang 2023)。然而,在多文档问答 (MD-QA) 场景中,尚未对该框架进行重大研究,而该场景在学术研究、客户支持和需要从多个文档中得出深刻分析的财务/法律查询中有着实际用途 (Tessuto 2011;Bolino, Long, and Turnley 2016)。

在这里插入图片描述
图 1:使用不同策略检索上下文提示 ChatGPT 时的 MD-QA 性能。

    为了研究 LLM 的 MD-QA 能力,我们从 2WikiMQA(Ho et al 2020)和 MuSiQue(Trivedi et al 2022b)的开发集中随机抽样多文档问题,然后使用四种不同的策略提示 LLM 以获得答案 1。成功回答这些问题需要来自多个维基百科文档的知识。如图 1 所示,在 2WikiMQA 和 MuSiQue 上,直接提示 LLM 而不提供任何上下文(即 None),其表现远差于使用支持事实 2 作为上下文提示时的表现(即 Golden 语境)。这表明仅使用 LLM 中编码的知识来完成 MD-QA 的局限性。

    在传统的 OD-QA 和单文档问答 (DQA) (Xu et al 2020;Mathew、Karatzas 和 Jawahar 2021) 中,克服这一限制的一种常见解决方案是检索基础上下文并从上下文中得出忠实的答案,即检索和阅读 (Zhu et al 2021;Ju et al 2022)。然而,与 OD-QA 和 D-QA 不同,MD-QA 的主要挑战在于它需要交替检索和推理不同文档中的知识 (Pereira et al 2023;Caciularu et al 2023)。例如,成功回答图 2(a)(b) 中的问题需要对两个不同文档(即维基百科页面)中的不同段落进行推理。此外,每篇文档都是多模态结构化数据(例如,页面、章节、段落、表格和图形)的汇编,有些问题可能会专门询问某些内容,结构,这需要全面掌握这些复杂的文档结构。例如,图 2© 中的问题询问第 1 页和第 2 页之间的区别,如果使用 BM25 等启发式方法或 DPR 等深度学习方法,则无法回答这个问题 (Karpukhin et al 2020)。在先前挑战的基础上,LLM 的出现带来了新的复杂性。

    对于跨不同文档交替检索和推理知识的挑战,尽管先前的研究训练了一个多跳检索器 (Xiong et al 2020; Yavuz et al 2022) 来模仿这种过程,通过根据已检索到的段落顺序获取下一段,但它们都没有探索将 LLM 纳入这一过程的潜力。最近的研究设计了不同的提示策略,例如 Chain/Tree/Graph-of-thought(Trivedi et al 2022a;Wei et al 2022;Yao et al 2023;Yao, Li, and Zhao 2023),以引导 LLM 逐步接近答案。然而,来回提示非开源 LLM 会导致难以忍受的延迟以及难以承受的消耗。此外,如何将不同的文档结构集成到提示设计中以便 LLM 能够理解它们仍然是一个悬而未决的问题。

在这里插入图片描述
图 2:三个需要对多个文档中的段落/页面/表格进行推理和检索的常见问题。 (a)桥接问题依赖于顺序推理,而(b)比较问题依赖于对不同段落的并行推理。(c)结构问题依赖于在相应的文档结构中获取内容。

    鉴于上述挑战,我们提出了一种知识图谱提示 (KGP) 方法来增强 MD-QA 中的 LLM。具体来说,我们在给定的文档上构建一个 KG,其中节点表示段落或文档结构,边表示段落之间的词汇/语义相似性或文档内结构关系。然后,针对第一个挑战,即跨不同文档的替代推理和知识检索,我们设计了一个基于 LLM 的 KG 遍历代理,它可以替代地生成下一个证据来解决问题,即推理,并根据生成的证据从构建的 KG 中选择最有希望访问的邻居,即检索。

    此外,我们应用指令微调策略来增强基于 LLM 的 KG 遍历代理的推理能力,从而无需反复提示非开源 LLM 进行证据生成。对于多模态挑战,我们向 KG 中添加不同类型的节点来表征不同的文档结构,从而支持在这些特定结构中进行内容检索。我们重点介绍了以下贡献:

  • 普遍适用的 KG 构建。我们提出了三种基于文档的 KG 构建方法,以段落或文档结构为节点,以它们的词汇/语义相似性或结构关系为边。然后,我们通过检查每个问题的邻域和支持事实之间的重叠程度,对 MD-QA 中构建的 KG 的质量进行实证评估(图 5)。此外,我们在补充材料的表 5 中对我们提出的和现有的 KG 构建方法进行了全面总结。
  • 使用 KG 进行提示表述。我们设计了一种知识图谱提示 (KGP) 方法,该方法利用基于 LLM 的 KG 遍历代理,通过遍历构建的 KG 来检索与问题相关的上下文。此外,我们对该代理进行了微调,使其根据访问的节点(检索到的段落)自适应地遍历最有希望接近问题的邻居。
  • 验证 MD-QA 框架的案例研究。我们比较了在使用不同类型的 LLM 代理进行图遍历(表 2)时,在不同数量文档上构建的 KG 上的 MD-QA 的性能(图 7©)。我们在补充材料第 8.7 节中对可视化 KGP 进行案例研究,以用于 MD-QA。

符号

    按照 (Tian et al 2023a),设 G = (V, E) 为由一组文档 D 构建的知识图谱,其中节点集 V = {vi} n i=1 表示文档结构(例如段落/页面/表格等),边集 E ⊂ V×V 表示不同节点之间的连接(例如文档结构之间的语义/词汇相似性和归属关系等)。设 X = {Xi} n i 为节点特征,Xi 对应于节点 vi 的特征,其形式可以是段落的文本、表格的 markdown 和页面的页码。

知识图谱构建

    尽管有许多成熟的 KG(Hoffart 等人 2013;Tian 等人 2023b),但它们将节点/边视为实体/关系,这需要复杂的关系提取技术,从而限制了它们在一般领域的适用性(Huang 等人 2021)。此外,它们主要关注维基百科领域,这也限制了它们在回答非维基百科问题(例如法律或财务文件问题)方面的使用。为了解决这个问题,我们提出了普遍适用的 KG 构建方法。

    我们首先分析图 2(a)-(b) 中的两个代表性问题来激发我们的 KG 构建。回答这两个问题需要推断不同段落之间的逻辑关联。这些关联通过以下方式进行编码:

  1. 词汇相似性:不同段落之间共享的常用关键词,例如图 2(a) 中的“Alf Clausen”连接了段落 S1 和段落 S2;
  2. 语义相似性:传达语义关系的句法元素,例如图 2(b) 中的“国籍”和“美国导演”。这促使我们通过将段落建模为节点并将其词汇/语义相似性建模为边来构建图。更具体地说,在图 3 中,我们将每个文档拆分为单独的段落,对于每个段落 Si ,我们向 KG 添加一个节点 vi ,其特征是该段落 Xi 的文本。然后我们通过检查段落节点对之间的词汇/语义相似性来添加边。

TF-IDF KG 构建

    为了根据词汇相似性添加边,我们首先对每个文档应用 TF-IDF (Ramos et al 2003) 关键词提取和过滤,从而降低词袋 (BOW) 特征的维数,使构建的图稀疏化,提高图遍历效率。另外,由于有些问题关注标题实体,我们将文档标题添加到提取的关键词集中。我们从所有文档中收集提取的关键词以形成关键词空间 W,然后如果两段文字在 W 中有任何共同关键词,则将它们连接起来。

在这里插入图片描述
图 3:知识图谱构建。我们将文档集合中的每个文档拆分为段落。对于每个段落,我们要么直接通过预训练的编码器获取它们的嵌入,要么提取它们的关键字来构建词袋 (BOW) 特征。然后,我们根据它们的嵌入相似性或它们是否共享共同的关键字将两个段落连接起来。此外,我们通过 Extract-PDF API 提取表格/页面,并将它们作为结构节点添加到 KG。如果页面包含段落和表格,我们会添加有向边来表示归属关系。表格节点包括该表格的 markdown 格式内容,因为补充材料中的图 8 已通过经验表明 LLM 能够理解这种格式的表格。

KNN-ST/MDR KG 构建

    为了根据语义相似性添加边,我们可以很容易地使用预先存在的模型(如句子转换器)为每个节点 vi 生成段落嵌入 Xi,然后计算成对相似度矩阵以构建 K 最近邻 (KNN) 图。然而,这些现成的模型通常是在与 MD-QA 不太相关的任务上训练的,可能无法充分封装问题所要求的嵌入相似性中的必要逻辑关联。为了解决这个问题,我们遵循 MDR (Xiong et al 2020) 的训练策略,通过根据先前的支持事实预测后续的支持事实来训练句子编码器,从而赋予编码器推理能力。因此,嵌入相似性及其相应构建的 KNN 图从根本上封装了不同段落之间必要的逻辑关联。

    TAGME 此外,我们使用 TAGME (Min et al 2019) 从每个段落中提取维基百科实体,并根据两个段落节点是否共享共同的维基百科实体构建图。除了段落节点之外,我们还通过 Extract-PDF 3 提取文档结构,将结构节点添加到图中。在本文中,我们只考虑添加页面和表格,但构建的 KG 可以包含更多不同类型的文档结构。表节点的特征是 markdown,因为 LLM 可以理解这一点,如补充材料中的图 8 所示。页面节点的特征是页码,我们将从页码到该页面中的句子/表节点添加有向边。请注意,我们的目的不是提出一种一刀切的 KG 构建方法。相反,我们试图比较表 5 中各种方法的优点和局限性,为哪些 KG 最适合特定场景提供指导。

在这里插入图片描述
图 4:基于 LLM 的上下文检索 KG 遍历代理。对于关于文档结构的问题(左),我们使用 LLM 提取结构并检索其对应的内容(页面内容是属于该页面的段落,表格内容是 markdown 格式的文本)。对于关于文档内容的问题,我们将其与当前检索到的上下文连接起来,并提示 LLM 生成下一个证据来回答问题。通过比较候选相邻句子与生成的段落之间的相似性,我们确定下一个要遍历的段落节点。 相应地,候选邻居会更新以进行下一轮遍历。

在这里插入图片描述
图 5:HotpotQA 上 KG 的质量。对于每种 KG 构建方法,随着右侧 y 轴上邻居的平均数量增加(KG 变得更密集),SFEM 会增加而精度会降低。KNN-MDR 比 TF-IDF 和 KNN-ST 实现了更好的权衡。TAGME 构建的 KG 比其他的更密集。

    为了验证构建的 KG 确实编码了 MD-QA 所需的信息,我们从 HotpotQA 中随机抽取问题,并使用我们提出的方法为每个问题在文档集上构建 KG。我们改变超参数来控制构建的 KG 的稀疏性,并测量 TF-IDF 最初搜索的种子段落的邻居覆盖了多少支持事实的百分比。有关四种构建方法及其超参数的更多详细信息,请参阅补充材料中的第 8.5 节。如图 5 所示,随着构建的图变得更加密集,相邻节点段落击中支持事实的机会增加(即 SF-EM 增加),尽管冗余信息也增加了(即精度降低了)。由于一个段落与所有其他段落之间共享的共同关键词通常远少于所有文档中的段落总数,因此 TF-IDF 构建的图的密度将受到上限,从而导致较低的 SF-EM(图 5 中 TF-IDF 曲线的 SF-EM 低于 0.7 证明)。对于 TAGME,我们通过经验发现它可以识别单个段落中提到的大量实体,从而导致图更加密集,并导致 TAGME 的起始 SF-EM 已经在 0.95 左右。

    此外,由于 KNN-MDR 是通过在 HotpotQA 上预测下一个支持事实 (Xiong et al 2020) 进行预训练的,因此它比 KNN-ST 实现了更好的权衡,因为 KNN-ST 的嵌入是直接从句子转换器获得的,而无需针对特定数据集进行预训练。总而言之,虽然高 SF-EM 表明大多数问题的支持事实已被种子段落的邻居完全覆盖,但低精度表示这些相邻段落中的大多数与问题无关。因此,如果我们盲目地执行图遍历而不进行任何针对问题量身定制的调整,我们检索到的上下文将包含冗余段落并损害 LLM 在 MD-QA 中的能力。为了解决这个问题,我们接下来引入一个基于 LLM 的 KG 遍历代理来自适应地访问最有利于回答给定问题的相邻段落。

基于 LLM 的 KG 遍历代理

    实现自适应知识图谱遍历的一种方法是排序候选节点(即已访问节点的邻居),以确定下一步要访问哪些节点。最简单的方法是应用基于启发式的模糊匹配或基于嵌入的相似性排序,但这无法捕捉已遍历路径与下一步要访问的节点之间的内在逻辑关系。相反,我们引入了一个基于 LLM 的 KG 遍历代理,这是一个经过微调的 LLM,可根据从当前访问的节点收集的信息,引导 KG 遍历到下一个最有希望回答问题的段落。

    给定一个关于文档内容的问题 q,基于 LLM 的图遍历代理会推理先前的访问节点/检索到的段落{sk} j k=0,然后生成下一个段落sj+1,如下所示:在这里插入图片描述其中 ||j k=0Xk 连接先前检索到的段落/访问过的节点的文本信息。对于 f 的选择,一种方法是采用仅编码器模型,如 Robertabase(Asai 等人 2019;Xiong 等人 2020;Yavuz 等人 2022),相应地 g 将是另一个编码器模型,其中 ϕ(·) 是测量嵌入相似度的内积。另一种方法是采用编码器-解码器模型,例如 T5(Brown 等人 2020;Touvron 等人 2023),相应地 g 将是恒等函数,其中 ϕ(·) 测量文本相似度。为了缓解幻觉问题并增强 LLM 遍历代理的推理能力 (Wei et al 2022; Ji et al 2023),我们进一步指令微调 f (Chung et al 2022),通过基于先前的支持事实预测下一个支持事实,从而将最初编码在其预训练参数中的常识知识与从指令微调中继承的增强推理能力相结合。

    在访问通过公式 (1) 从候选邻居队列中选择的得分最高的节点后,通过添加这些新访问节点的邻居来更新候选邻居队列。我们迭代地应用此过程,直到达到预设的预算。接下来,我们用图 4 中的示例说明上述过程,然后介绍算法。

    图 4 展示了基于内容的问题,即“辛普森主题曲的当前编曲的创作者出生于哪一年?”。我们使用 TF-IDF 搜索来初始化种子段落节点 1,其内容为:“Alf Heiberg Clausen(生于 1941 年 3 月 28 日)是一位美国电影作曲家”。随后,我们在当前检索到的上下文(节点 1)前加上问题,并提示 LLM 生成下一个需要的证据,以便更进一步接近问题。因为我们通过指令微调增强了 LLM 的推理能力,所以它有望识别出问题与当前检索到的上下文之间的逻辑关联。因此,它可以预测保持逻辑连贯性的后续段落,尽管可能包含事实错误,即“Alf Clausen(生于 1941 年 4 月 16 日)是一位美国电影和电视配乐作曲家。” 为了纠正这个潜在的事实错误,我们从候选邻居中选择与 LLM 生成的段落最匹配的节点,在本例中为节点 4“Alf Heiberg Clausen(生于 1941 年 3 月 28 日)是一位美国电影作曲家”。由于这段话直接来自文档,因此它本质上确保了信息的有效性。然后我们提示 LLM 以及检索到的上下文节点 1 和 4 以获得答案。

在这里插入图片描述

    此外,对于询问文档结构的问题,我们提取文档结构名称并在 KG 中找到它们对应的结构节点。对于表节点,我们检索其 markdown 格式的内容,而对于页面节点,我们遍历其一跳邻居并获取属于该页面的段落。这里我们介绍了针对 MD-QA 提出的 KGP 方法的算法。给定一个问题,我们首先应用 LLM来分类问题是询问文档结构还是内容。如果问题侧重于文档结构,我们提取结构关键词如Page或Table,并在KG中对应的结构节点中检索内容。如果问题侧重于文档内容,我们按照算法1的步骤进行。具体而言,我们首先通过TF-IDF搜索初始化种子段落Vs和推理路径队列P。然后对于每个种子段落vi∈Vs,我们将其邻居段落节点Ni添加到候选邻居队列C中(第1-4行)。此后,我们迭代地从P/C中出队最早入队的推理路径/候选邻域Pi/Ci,并使用经过微调的基于LLM的图遍历代理根据公式(1)对Ci中出队的邻居进行排序(第5-7行)。最后,我们根据 Ci 中的排名选择前 k 个段落节点 V ′ i 进行下一步访问,并相应地更新候选邻居队列和推理路径队列(第 813 行)。当候选邻居队列为空或满足检索到的段落的前缀预算 K 时,上述过程终止。时间和空间复杂度在补充材料中的第 8.3 节中进行了彻底的分析。

实验

    在本节中,我们进行实验以验证所提出的知识图谱提示方法 (KGP) 用于 MDQA。具体来说,我们回答了以下问题:

  • Q1 - 第 13 节:与现有基线相比,KGP 在 MD-QA 中的表现如何?
  • Q2 - 第 13-13 节:构建的 KG 和基于 LLM 的图遍历代理的质量如何影响 MD-QA 性能?由于篇幅限制,我们在补充材料 8.1-8.2 中全面介绍了我们的实验设置,包括数据集收集、基线和评估标准。

在这里插入图片描述
表 1:不同基线的 MD-QA 性能 (%)。最佳和亚军以粗体和下划线表示。无:没有段落,只提供问题。黄金:与问题一起提供支持事实。PDF-T 代表 PDFTriage。

MD-QA 性能比较

    我们在表 1 中比较了所提出的 KGP-T5 和其他基线的 MD-QA 性能。首先,基线“无/黄金”表现最差/最好,因为它们没有提供/提供黄金上下文。所有其他基线都实现了介于两者之间的性能,因为检索到的上下文仅涵盖了部分黄金支持事实。除了 Golden,我们的 KGP-T5 排名最好。表现排名第二的基线 MDR 通过根据问题和已经检索到的上下文预测下一个支持事实来微调 RoBERTa-base 编码器(Xiong et al 2020)。他们的借口任务为模型配备了跨不同段落知识的推理能力,从而提高了检索到的上下文的质量。另一个基于深度学习的检索器 DPR 的性能比 MDR 差得多,因为它仅通过最大化查询与其支持事实之间的相似性(而不考虑它们的顺序)来微调编码器,这表明在解决 MD-QA 时理解不同知识的逻辑顺序非常重要(Xiong et al 2020)。在比较不同数据集的性能时,我们发现所有基线在 HotpotQA 上的表现都比 IIRC 好。这是因为 HotpotQA 中的问题通常比 IIRC 中的问题更简单。现有研究(Jiang and Bansal 2019)表明,HotpotQA 中的一些问题可以通过捷径轻松回答,而 IIRC 中的问题有时需要算术技能,例如,“Wingfield 失去财富的事件持续了多少年?”,这给 LLM 较差的算术能力带来了独特的困难(Yuan et al 2023)。

在这里插入图片描述
图 6:性能/延迟随 KG 密度增加而增加。结果是 HotpotQA 上随机抽取的 100 个问题的平均值。

    此外,我们提出的方法在 PDFTriage 上实现了 67% 的 Struct-EM,而现有的基线都没有设计来处理这些结构性问题,例如“第 1 页和第 2 页有什么区别”或“在表 3 中,哪个站的平均流量最高?”。

在这里插入图片描述
表 2:比较基于 LLM 的 KG 遍历代理。

构造图的影响我们通过改变

    TF-IDF/KNN-ST/KNN-MDR/TAGME 的超参数来构建具有不同密度的 KG,并使用 KGP-T5 研究其对 MD-QA 的性能和邻居匹配时间的影响。由于基于 LLM 的图遍历代理从已访问节点的邻居中选择下一个要访问的节点,因此随着邻居的增加,它命中支持事实的机会也会增加。相反,随着候选池(即等式 (1) 中的 Nj)的增加,邻居匹配效率会降低。如图 6 所示,我们观察到了类似的趋势,即随着 KG 密度的增加,F1/EM 增加并保持稳定,而选择下一个最有希望的邻居的延迟也会增加。当两个构建的 KG 的密度相同时,KNN-MDR 的性能优于 KNN-ST。这是因为 KNN-ST 中的编码器是在广谱数据集上进行预训练的,而 MDR 中的编码器是在 HotpotQA 上通过预测下一个支持事实的借口任务进行预训练的。因此,嵌入相似度和相应的邻居关系更好地反映了不同段落之间的逻辑关联,这与图 5 中 KNN-MDR 构建的 KG 比 KNN-ST 构建的 KG 更好一致。与 KNN-MDR/ST 相比,TAGME 以增加延迟为代价提供了更好的性能,因为 TAGME 生成的 KG 比 KNN-ST/MDR 的 KG 更密集。

在这里插入图片描述

图 7:(a)-(b):随着分支因子的增加,性能先增加后减少。结果是 2WikiMQA 和 MuSiQue 上 100 个抽样问题的平均值。©:随着 MuSiQue 上文档数量的增加,性能/效率增加/减少。KGP-T5 的性能/效率高于 DPR。

图遍历代理的影响

    在这里,我们研究使用不同的 LLM 代理遍历 TAGME 构造的 KG 对 MD-QA 的影响。具体来说,我们在表 2 中比较了通过 ChatGPT、LLaMA、T5 和 MDR 的指导随机或智能地选择下一个要访问的邻居的代理。由于随机代理仅在没有 LLM 指导的情况下盲目遍历 KG,因此它不可避免地会收集不相关的段落,因此在 LLM 指导下的表现最差。这与我们之前对图 5 中低精度的观察一致,进一步证明了使用 LLM 指导图遍历的必要性。有趣的是,我们发现 KGP-T5 的表现优于 LLaMA,尽管 LLaMA-7B 的参数比 T5-0.7B 的参数多。我们假设这是因为 LLaMA7B 比 T5-0.7B 需要更多的数据来微调。

敏感性分析

    这里我们对分支因子(从候选邻居中选择的下一个要访问的节点数)进行敏感性分析。在图 7(a)-(b) 中,性能首先随着分支因子的增加而提高,因为从候选邻居中选择的段落节点越多,导致得出最终答案的推理路径就越多。然而,当我们固定上下文预算以确保公平比较时(即,我们被允许为每个问题检索的段落总数在所有基线中都是相同的),性能会随着分支因子的增加而下降,因为初始种子节点的数量减少,导致 KG 的覆盖率降低。此外,我们在图 7© 中比较了当构建的 KG 包含不同数量的文档时 KGP 的效率。KGP 始终比其他基线实现更高的性能,并且比基于嵌入的 DPR 实现更高的效率。TF-IDF 比 KGP 稍快,因为它是一种纯粹的基于启发式的方法。

相关工作

    问答系统 (QA) 旨在以自然语言为用户的问题提供答案 (Zhu et al 2021; Pandya and Bhatt 2021),大多数 QA 系统由信息检索 (IR) 和答案提取 (AE) 组成 (Mao et al 2021; Ju et al 2022; Liu and Qin 2022)。在 IR 中,系统使用启发式方法 (BM25) (Robertson, Zaragoza et al 2009) 或神经排名方法 (DPR) (Karpukhin et al 2020) 搜索与查询相关的事实段落。在 AE 中,最终答案通常是从相关段落中提取的文本跨度。尽管该框架已广泛应用于 O-QA(Mao 等人 2021)和 D-QA(Xu 等人 2020;Mathew、Karatzas 和 Jawahar 2021),但之前的研究并没有关注 MD-QA,因为这需要交替推理和从多个文档中检索知识。为了解决这个问题,我们构建了 KG 来编码跨文档不同段落之间的逻辑关联,并设计了一个基于 LLM 的图遍历代理来交替生成原因并访问最匹配的段落节点。

    使用 LLM 进行预训练、提示和预测随着 LLM 的出现,“预训练、提示、预测”范式在处理各种任务方面获得了极大的欢迎(Gururangan 等人 2020;Liu 等人 2023;Yu 等人 2023)。该方法首先通过借口任务对 LLM 进行预训练,将世界知识编码为大量参数(Wu et al 2023),然后使用提示函数提取下游任务的相关知识(Yang et al 2023)。最近的进展探索了不同的提示策略来增强 LLM 的推理能力(Wei et al 2022;Jin et al 2023)。与此相反,我们的工作通过将提示公式转化为 KG 遍历提供了一个新颖的视角。

结论

    回答多文档问题需要从不同模态的不同文档中进行知识推理和检索,这对在 LLM 中应用“预训练、提示和预测”范式提出了挑战。通过识别段落之间的逻辑关联和文档内的结构关系,我们提出了一种知识图谱提示方法(KGP)来帮助 LLM 进行 MD-QA。 KGP 从文档构建 KG,节点为句子或文档结构,边为词汇/语义相似性/结构关系。由于构建的 KG 可能包含不相关的邻居,我们进一步设计了一个基于 LLM 的图遍历代理,该代理有选择地访问最有希望解决问题的节点。


http://www.ppmy.cn/server/152482.html

相关文章

每日计划-1221

1. 完成 SQL6 查找学校是北大的学生信息 2. 八股部分 1) 选择排序冒泡排序 包括 代码 时间复杂度 空间复杂度 稳定性 是否能对代码进行提升 选择排序代码&#xff1a; #include <iostream> #include <vector>using namespace std;// 选择排序函数 void sel…

vue入门教程:组件透传 Attributes

一、透传Attributes的基本概念 透传Attributes指的是传递给一个组件&#xff0c;但没有被该组件声明为props或emits的attribute或者v-on事件监听器。最常见的例子包括class、style和id。当一个组件以单个元素为根路径渲染时&#xff0c;透传的attribute会自动被添加到根元素上…

RFdiffusion get_torsions函数解读

函数功能 get_torsions 函数根据输入的原子坐标(xyz_in)和氨基酸序列(seq),计算一组主链和侧链的扭转角(torsions)。同时生成备用扭转角(torsions_alt),用于表示可以镜像翻转的几何结构,并返回掩码(tors_mask)和是否平面化(tors_planar)的信息。 输入参数 xyz…

本机如何连接虚拟机MYSQL

要让本机&#xff08;主机&#xff09;连接到虚拟机上的 MySQL 数据库&#xff0c;你需要确保虚拟机和主机之间的网络连接正常&#xff0c;并且 MySQL 配置允许外部连接。以下是实现本机连接虚拟机 MySQL 的步骤&#xff1a; 步骤 1&#xff1a;确认虚拟机与本机的网络连接 确…

FastAPI vs Go 性能对比分析

FastAPI vs Go 性能对比分析 总体结论 FastAPI 虽然性能优秀&#xff0c;但整体上仍无法完全达到 Go 的性能水平。 详细对比 优势 FastAPI 开发效率高Python生态系统丰富自动API文档生成类型检查和验证异步支持好 Go 原生性能更强内存占用更低并发处理能力强编译型语言的优…

防火墙规则配置错误导致的网络问题排查

防火墙规则配置错误可能导致服务器的网络中断、服务不可用或访问受限等问题。排查和修复防火墙规则配置错误需要系统性的方法&#xff0c;以快速定位问题并恢复正常服务。以下是防火墙规则配置错误导致网络问题的排查与解决指南。 一、常见防火墙配置错误及其影响 错误的默认策…

vue3+vite 引入动画组件库 Inspira UI

关于Inspira UI Inspira UI不是传统的组件库。相反&#xff0c;它是精选的优雅组件集合&#xff0c;您可以轻松将其集成到您的应用程序中。只需选择所需的组件&#xff0c;复制代码&#xff0c;然后自定义以适合您的项目即可。您可以随意使用和修改代码&#xff01; 官网地址…

【hackmyvm】eigthy 靶机wp

tags: HMVgopherdoas另类sudo提权knock目录穿越 Type: wp dg-publish: true 难度: ⭐️⭐️⭐️ 作者: sml 系统: Linux 这里写目录标题 2. 信息收集2.1. 端口扫描2.2. knock敲门2.3. 目录扫描2.4. 目录穿越 3. 提权 2. 信息收集 2.1. 端口扫描 ┌──(root㉿kali)-[~/Deskt…