RAG与LLM本身知识存在冲突时，大模型如何抉择？

原文：https://arxiv.org/pdf/2404.10198.pdf

引言

在人工智能领域，大型语言模型（LLMs）因其强大的语言理解和生成能力而备受关注。然而，这些模型在处理特定问题时可能会产生错误信息，即所谓的“幻觉”，这种现象在需要精确事实和数据的任务中尤为危险，比如医疗咨询或法律分析。为了解决这一问题，研究者们提出了检索增强生成（RAG）框架，它通过检索相关信息并将其作为上下文提供给LLMs，以提高模型的准确性。但RAG系统在面对检索内容与模型内部知识不一致时的表现如何？本文将深入分析RAG模型的忠实度，探讨在RAG和LLMs内部先验之间存在的冲突。

研究动机

尽管RAG模型在提高LLMs回答质量方面显示出了巨大潜力，但它们在面对与内部知识不一致的检索信息时的行为尚不明确。这种冲突源于两个方面：一是LLMs的内部知识，即模型在训练过程中学到的信息；二是检索到的信息，可能来自最新的数据源或外部数据库。当这两者发生冲突时，模型将如何取舍？是否会倾向于信任其内部知识，还是外部检索到的信息？此外，如果检索到的信息本身存在错误或误导性，模型是否能够识别并纠正这些错误？

在LLMs单独给出错误答案时，提供正确的检索内容是否总能修正错误？
当检索内容不正确时，LLMs是否能识别并忽略错误信息，还是会重复这些错误？
模型的内部先验知识与检索到的信息之间的冲突如何影响其最终回答的准确性？

为了解答这些问题，本研究旨在深入分析RAG模型的忠实度，即在RAG和LLMs内部先验之间存在的冲突。通过系统性的实验和分析，研究者们希望能够量化这种冲突，并探索在何种条件下，LLMs更可能依赖于其内部知识或检索到的信息。这项研究不仅对于理解RAG模型的行为至关重要，而且对于指导未来RAG系统的设计和优化具有重要意义。

方法

在探讨RAG模型的可靠性之前，我们需要了解其工作原理。RAG结合了检索和生成两个步骤，首先通过检索系统找到与问题相关的信息，然后将这些信息作为上下文提供给LLMs，以期望生成更准确的回答。

实验的核心目的是量化并分析LLMs在内部先验知识与检索到的信息不一致时的偏好行为。具体来说，研究者们想要了解：

在LLMs单独给出错误答案时，提供正确的检索内容是否总能修正错误。
当检索内容不正确时，LLMs是否会忽略错误信息，或者是否会重复这些错误。

3.1 方法论

3.1.1 数据集构建

研究者们从六个不同领域生成了1,294个问题，包括药物剂量、体育统计、新闻、日期、名称和城市等，以构建一个全面的测试集。

3.1.2 引入扰动

研究者们为了评估大型语言模型（LLMs）在检索增强生成（RAG）框架下如何处理与内部知识不一致的检索信息，特意对参考文档进行了系统性的扰动，包括数值的增减和分类信息的修改。以下是对引入扰动这一实验步骤的更详细解释，扰动的目的是：

模拟错误信息：在现实世界中，检索到的信息可能由于各种原因（如数据输入错误、信息过时等）而不准确或误导性。
测试模型的鲁棒性：通过引入扰动，研究者们可以测试LLMs在面对错误信息时是否能够维持其回答的准确性。
量化内部先验与RAG信息的冲突：通过比较模型在有无扰动的检索信息下的行为，研究者们可以量化模型依赖内部先验知识与检索信息之间的冲突。

扰动的类型，研究者们根据数据集的特点，设计了不同类型的扰动：

数值扰动：对于涉及数值（如药物剂量、体育统计、新闻数据）的数据集，研究者们通过乘以不同的数值因子（如0.1、0.2、直到10.0）来生成扰动版本。
年份扰动：对于维基百科的年份数据集，研究者们以20年为步长，对年份进行了从-100年到100年的绝对修改。
分类信息扰动：对于名称和地点等分类信息，研究者们设计了轻微、显著和滑稽三种扰动级别，以模拟不同程度的错误信息。

基于扰动数据，进行实验步骤如下：

生成原始问题和答案对：从特定领域的网页内容中提取信息，并使用LLMs生成问题和答案对。
生成扰动问题和答案对：对每个问题的答案进行系统性的修改，生成多个扰动版本。
质量控制：通过额外的步骤，确保生成的问题符合特定的格式和标准。
模型查询：将原始问题和扰动后的问题连同上下文一起提供给LLMs，并记录其回答。
收集数据：收集LLMs的回答以及输出令牌的对数概率，用于后续分析。

RAG_44">3.1.3 RAG与模型先验的比较

通过比较模型在有无检索内容时的回答，以及回答的token概率，来分析模型对RAG信息的偏好程度。LLMs的内部先验知识是指模型在训练过程中学到的知识，这些知识构成了模型对世界的基本理解。当LLMs独立于外部信息源回答问题时，它们依赖于这些内部知识来生成回答。
RAG是一种框架，它通过检索与问题相关的外部信息，并将其作为上下文提供给LLMs，以期望生成更准确、更贴近当前知识的答复。
研究者们设计了一个实验流程，以量化分析LLMs在内部先验与RAG信息不一致时的偏好行为：

无上下文查询：首先，研究者们在没有提供任何外部上下文的情况下，让LLMs回答问题，并记录下模型的回答及其令牌概率（即模型对其回答的置信度）。
有上下文查询：然后，研究者们在提供相关检索内容的情况下，再次让LLMs回答同样的问题，并记录下这次的回答及令牌概率。
比较回答：研究者们比较两次查询下模型的回答。如果LLMs在有检索内容的情况下给出的回答与无上下文时相同，这表明模型更偏好其内部先验知识。如果回答与检索内容一致，则表明模型更偏好RAG信息。

RAG偏好率是衡量LLMs倾向于使用RAG信息而非其内部先验知识的程度。它是通过计算所有RAG查询中模型偏好RAG信息的比例来得出的。

3.1.4 提示技术的影响

研究者们还探讨了不同的提示技术（如严格遵循、宽松遵循）对模型RAG偏好率的影响。提示技术的选择对于模型如何整合检索到的信息以及如何生成回答起到了关键作用。在论文中，研究者们考察了不同的提示技术对LLMs在RAG设置下的表现有何影响。以下是对这些提示技术影响的详细解释：

标准提示（Standard Prompt）

标准提示是基于流行的LLM开源库中使用的RAG提示模板。这种模板的设计旨在平衡模型的内部知识和检索到的内容，使模型能够在生成回答时同时考虑这两方面信息。

严格提示（Strict Prompt）

严格提示的设计目的是强制模型严格遵循检索到的上下文信息。这种提示方式倾向于忽略模型的内部先验知识，更多地依赖于检索到的内容来生成回答。这种方法可能会导致模型更频繁地采用检索信息，即使这些信息与模型的内部知识相悖。

宽松提示（Loose Prompt）

与严格提示相对，宽松提示鼓励模型在生成回答时，对检索到的上下文信息进行推理和判断。这种提示方式给予模型更多的灵活性，使其能够在内部知识和检索信息之间做出更加合理的权衡。宽松提示下，模型可能会更加谨慎地处理与内部知识不一致的检索信息。

3.2 实验设计

实验的核心是比较模型在有无参考文档的情况下回答问题的能力。研究者们使用了GPT-4和其他两个模型（GPT-3.5和Mistral-7B）来评估RAG的性能。实验步骤如下：

数据集准备：从六个不同领域收集信息，生成问题和答案对。
问题生成：使用LLMs根据收集的信息生成问题。
答案验证：通过额外的质量控制步骤，确保问题和答案符合特定的格式和标准。
扰动生成：对参考文档进行系统性扰动，创建不同的错误版本。
模型查询：首先在没有上下文的情况下查询LLMs，记录先验回答和概率。
RAG查询：在包含检索内容的情况下再次查询LLMs，比较回答与先验回答的差异。
偏好率计算：计算模型对RAG信息的偏好率，并与先验概率和偏离程度进行比较。
提示技术影响分析：使用不同的提示技术，评估其对模型RAG偏好率的影响。

3.3 实验结果

研究结果表明，当提供正确的检索信息时，RAG模型能够显著提高与参考答案的一致性（从34.7%提升至94%）。然而，当检索内容与模型内部知识不一致时，模型的行为受到其内部先验知识的影响。具体来说，模型对其初始回答的置信度越高，它就越不可能偏好RAG提供的信息。此外，当RAG值与模型先验值偏离程度越大时，模型越不可能采用RAG值。不同的提示技术也对模型的RAG偏好率有显著影响，严格提示会提高RAG的偏好率，而宽松提示则会降低偏好率。

3.3.1 一致性分析

实验结果显示，当引入RAG时，模型与参考答案的一致性显著提高，从平均34.7%提升至94%。研究者们通过比较模型在有无扰动的检索信息下的回答，来分析模型对RAG信息的偏好程度。此外，通过改变扰动的幅度，研究者们还能够探索模型偏好的“临界点”，即模型从偏好RAG信息转向偏好内部先验知识的时刻。

引入扰动是评估LLMs在RAG设置下如何处理不一致信息的关键步骤。这一方法不仅揭示了模型可能的局限性，也为改进RAG系统提供了见解。通过这种方法，研究者们能够更好地理解LLMs在面对不完美检索信息时的行为，这对于提高RAG系统在各种应用场景中的可靠性和有效性至关重要。

在实际应用中，了解LLMs如何处理不准确的检索信息对于构建可靠的RAG系统至关重要。例如，在医疗咨询或法律分析等领域，错误的信息可能导致严重后果。通过引入扰动的实验，研究者们可以评估和改进LLMs在面对不完美信息源时的表现，从而提高系统的整体性能和用户信任度。

RAG_89">3.3.2 RAG偏好率与先验概率的关系

研究发现，模型对RAG信息的偏好率与其内部先验概率呈负相关。即，当模型对其初始回答的置信度越高，它就越不可能偏好RAG提供的信息。
当RAG值与模型先验值偏离程度越大时，模型越不可能采用RAG值。实验结果揭示了两个关键发现：

RAG偏好率与先验概率的负相关性：LLMs对RAG信息的偏好率与其在没有上下文时对其回答的置信度呈负相关。这意味着，如果模型对其内部生成的回答非常有信心，它就不太可能改变其答案以适应检索到的信息。
对检索信息偏离程度的敏感性：当检索到的信息与模型的内部先验知识越来越不一致时，模型越来越倾向于回归到其先验知识。

这项分析对于理解和改进RAG系统至关重要。它表明，尽管RAG可以显著提高LLMs的准确性，但模型的内部先验知识仍然在决策过程中扮演着重要角色。此外，当检索信息不准确或误导性时，模型可能无法正确地纠正错误，这强调了对检索信息质量控制的重要性。

RAG与模型先验的比较分析提供了对LLMs在面对不一致信息时如何做出选择的深入理解。这项研究强调了在设计RAG系统时需要考虑的复杂性，以及在依赖这些系统提供关键信息时需要谨慎的原因。通过理解这些动态，可以更好地指导未来的研究和RAG系统的实际部署。

3.3.3 提示技术的影响

不同的提示技术对模型的RAG偏好率有显著影响。严格提示会提高RAG的偏好率，而宽松提示则会降低偏好率。研究者们通过实验发现，不同的提示技术对模型的RAG偏好率有显著影响。具体来说：

标准提示下，模型会根据检索信息的相关性和准确性，适度地整合这些信息到其回答中。
严格提示导致模型显示出更高的RAG偏好率，表明模型更倾向于采用检索到的信息，即使这可能与它的内部知识不一致。
宽松提示下，模型的RAG偏好率随着先验概率的增加而显著下降，表明模型在面对不确定的检索信息时，更可能依赖其内部知识。

提示技术的选择对LLMs在RAG设置下的行为产生了重要影响。严格提示可能会导致模型过度依赖检索信息，而宽松提示则鼓励模型在内部知识与检索信息间做出更加平衡的判断。这些发现对于设计RAG系统时如何平衡模型的内部知识和检索信息提供了重要的见解。

在实际应用中，选择适当的提示技术对于确保RAG系统提供准确、可靠的回答至关重要。例如，在需要严格数据准确性的领域（如医疗或法律咨询），可能更倾向于使用宽松提示，以减少对可能存在错误的检索信息的依赖。相反，在需要快速整合最新信息的场景中，严格提示可能会更合适。理解不同提示技术的影响，有助于开发者根据具体应用场景定制RAG系统，以达到最佳性能。

创新点

本研究的创新之处在于系统性地分析了RAG模型在面对与内部知识不一致的检索信息时的行为，并量化了模型对RAG信息的偏好程度。此外，研究还探讨了不同提示技术对模型偏好的影响，为RAG系统的设计提供了有价值的见解。

不足与展望

尽管本研究在理解RAG模型的可靠性方面取得了进展，但仍存在一些局限性。首先，研究的领域范围有限，未能涵盖所有可能的应用场景。其次，问题生成过程主要基于事实，未涉及更复杂的逻辑推理。最后，由于API的限制，未能对所有主流模型进行全面评估。
未来的研究可以探索更广泛的领域，开发更复杂的问题生成技术，并尝试获取更多模型的内部概率信息，以进一步深化我们对RAG模型的理解。

结论

RAG模型作为一种提高LLMs准确性的有效手段，其在实际应用中的表现受到了广泛关注。本研究通过系统性的分析和实验，揭示了RAG模型在面对不一致信息时的内在机制，为未来RAG系统的设计和优化提供了重要的理论和实证支持。随着LLMs在医疗、法律等领域的广泛应用，深入理解RAG模型的可靠性对于确保其输出的准确性和安全性具有重要意义。

本研究揭示了RAG模型在面对不一致信息时的内在机制，为未来RAG系统的设计和优化提供了重要的理论和实证支持。研究结果强调了在设计RAG系统时需要考虑模型内部先验知识与检索信息之间的平衡，以及提示技术的选择对于模型行为的影响。这些发现对于确保RAG系统在实际应用中的准确性和可靠性具有重要意义。然而，研究也存在局限性，如领域范围的限制和问题生成过程的简化，未来研究需要在更广泛的领域和更复杂的问题生成技术上进行探索。