多跳问答中的语言模型知识编辑增强

人工智能咨询培训老师叶梓转载标明出处

大模型在整合实时知识更新方面常常遇到困难，这可能导致回答过时或不准确。尤其当处理多跳问题时，挑战进一步增加，因为这类问题需要模型更新和整合与问题相关的多个知识点。图 1为传统基于相似度的搜索失败案例。

为了解决这一问题，来自美国佐治亚大学、纽约大学、莱斯大学和北卡罗来纳州立大学的研究人员提出了一种名为“检索增强型模型编辑（RAE）”的新框架。RAE框架专为多跳问答设计，通过检索编辑后的事实，然后通过上下文学习来完善语言模型。

RAE框架

RAE框架针对大模型在多跳问答任务中的知识更新提出了一种新的解决方案。该框架通过两个关键步骤来实现对大模型的知识编辑：首先是通过检索与问题相关的编辑事实，然后利用这些事实通过上下文学习的方式对模型进行编辑。

图2为RAE框架的整体流程。首先，通过知识插入/编辑步骤，构建了以“Misery”为中心的子图。然后，利用基于互信息的检索策略，检索到与“Misery”相关的编辑事实。接下来，通过冗余知识剪枝步骤，筛选出最相关的事实。最后，在上下文学习编辑阶段，利用编辑模板和筛选出的事实，对模型进行编辑，以生成准确的答案。

检索编辑后的事实

检索步骤的核心是找到与输入问题直接相关的编辑后事实。这是通过一个基于互信息最大化的检索策略来实现的，该策略优于传统的基于文本相似度的检索方法。在传统的相似度检索中，仅依靠问题和事实之间的文本相似度来选择相关事实，这在多跳问答中可能不够准确，因为多跳问答需要理解问题中蕴含的复杂关系链。

利用外部知识图谱

为了增强检索过程，RAE框架引入了外部知识图谱（如图2所示），如WikiData。这一步骤涉及将编辑过的事实整合到外部知识图谱中，创建一个新的、包含编辑和未编辑事实的增强图G*。这个增强图不仅补充了编辑事实库，而且通过连接不同的实体，提供了额外的事实知识，有助于大模型输出正确的答案。

互信息最大化的检索目标

RAE框架定义了一个优化目标，即在给定问题的情况下，最大化检索子图和问题集之间的互信息。互信息量化了问题和检索子图之间的共享信息量，最大化互信息意味着检索到的子图与问题在信息上高度相关。通过最小化条件熵来实现互信息的最大化，这有助于选择最相关的子图以回答输入问题。

概率估计

为了计算互信息，RAE框架利用了大模型的下一词预测能力。通过考虑知识图谱中的事实链，RAE框架可以迭代地选择最相关的事实。这一过程涉及到对每个候选事实的预测概率进行估计，选择那些能够最大化预测概率的事实，从而构建出最能回答问题的事实链。

冗余事实剪枝

检索到的子图可能包含与问题回答无关的冗余信息。为了减少这种冗余，RAE框架采用了基于编辑不确定性的剪枝方法。编辑不确定性通过计算模型输出的香农熵来量化，反映了模型对其输出答案的信心水平。通过构建不同的事实集候选，并计算每个候选集的输出熵，选择使熵最小的事实集作为最终的编辑事实，从而减少了冗余信息的影响。图3展示了不同事实子集输入时模型编辑不确定性的分布。

RAE框架的理论基础是上下文学习，即当提示文本和输入查询之间存在共享的潜在概念时，可以有效地触发大模型的上下文学习能力。RAE框架通过最大化互信息来选择与问题最相关的事实，从而有效地激活了大模型的上下文学习能力。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

实验

实验旨在评估RAE框架在多跳问答中编辑大模型输出的有效性，并与其他方法进行比较。实验设计回答了以下几个核心问题：

Q1: RAE在编辑大模型输出上的效果如何？

Q2: 本检索策略与其他检索方法相比表现如何？

Q3: 本剪枝技术是否能够从检索到的事实中移除冗余信息？

Q4: RAE是否适用于专有大模型？

实验评估了多种不同规模和系列的大模型，包括GPT-2 (1.5B)、GPT-J (6B)、Falcon (7B)、Vicuna (7B)和Llama2-chat (7B)。这些模型中，GPT-2、GPT-J和Falcon是没有指令调整的预训练模型，而Vicuna是Llama1的变体，Llama2-chat是Llama2的指令调整版本。

与RAE框架比较的编辑方法包括：