推特爆火！超越ChatGPT和Llama2，新一代检索增强方法Self-RAG来了原创

作者 | ZenMoore

前言

大型语言模型（LLMs）具有出色的能力，但由于完全依赖其内部的参数化知识，它们经常产生包含事实错误的回答，尤其在长尾知识中。为了解决这一问题，之前的研究人员提出了检索增强生成（RAG），它通过检索相关知识来增强LMs的效果，尤其在需要大量知识的任务，如问答中，表现出色。

但RAG也有其局限性，例如不加选择地进行检索和只整合固定数量的段落，可能导致生成的回应不够准确或与问题不相关。

为了进一步改进，作者提出了自反思检索增强生成（Self-RAG, Self-Reflective Retrieval-Augmented Generation）。这是一个新框架，它不仅可以根据需要自适应地检索段落（即：模型可以判断是否有必要进行检索增强），还引入了名为反思令牌（reflection tokens）的特殊令牌，使LM在推理阶段可控。

实验结果显示，Self-RAG 在多种任务上，如开放领域的问答、推理和事实验证，均表现得比现有的LLMs（如 ChatGPT）和检索增强模型（如检索增强的 Llama2-chat）更好，特别是在事实性和引用准确性方面有显著提高。

论文链接：https://arxiv.org/abs/2310.11511

项目主页：https://selfrag.github.io/

方法

Self-RAG是一个新的框架，通过自我反思令牌（Self-reflection tokens）来训练和控制任意LM。它主要分为三个步骤：检索、生成和批评。

检索：首先，Self-RAG解码检索令牌（retrieval token）以评估是否需要检索，并控制检索组件。如果需要检索，LM将调用外部检索模块查找相关文档。
生成：如果不需要检索，模型会预测下一个输出段。如果需要检索，模型首先生成批评令牌（critique token）来评估检索到的文档是否相关，然后根据检索到的段落生成后续内容。
批评：如果需要检索，模型进一步评估段落是否支持生成。最后，一个新的批评令牌（critique token）评估响应的整体效用。