【文献阅读】DeepRAG：大语言模型的检索增强推理新范式

DeepRAG：《Thinking to Retrieval Step by Step for Large Language Models》。这是一篇关于如何让大语言模型（LLMs）更聪明地进行检索增强推理（Retrieval-Augmented Generation, RAG）的研究。

标题	期刊	年份	关键词
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models	arXiv (预印本)	2025	Retrieval-Augmented Generation, Large Language Models, Markov Decision Process, Adaptive Retrieval

🧠 研究背景

大语言模型（LLMs）在推理任务中表现出了惊人的潜力，但它们也有一个致命弱点——容易出现事实性幻觉（factual hallucinations）。这是由于模型的知识在时效性、准确性和覆盖范围上的局限性导致的。为了解决这个问题，检索增强生成（RAG）应运而生，通过检索外部知识库或搜索引擎的信息来提升模型回答的准确性。然而，现有的RAG方法存在一个很大的问题：任务分解不够有效，检索过程冗余，不仅引入了噪声，还降低了回答质量。🤔

🛠️ 相关工作

在检索增强生成领域，已经有了一些尝试。比如，基于分类器的方法（classifier-based methods）需要额外训练一个线性头来决定是否检索；基于置信度的方法（confidence-based methods）依赖于阈值驱动的不确定性指标，但这些方法在不同任务上的表现很不稳定。而DeepRAG则提出了一种全新的方法，利用LLMs的生成能力，通过模仿学习和链式校准来动态决定是否需要检索，既不需要额外参数，也不依赖不稳定的不确定性指标。🚀

🌟 创新点

DeepRAG的核心创新在于它将检索增强推理建模为马尔可夫决策过程（Markov Decision Process, MDP），并引入了两个关键组件：检索叙事（Retrieval Narrative）和原子决策（Atomic Decisions）。

检索叙事：确保检索过程是结构化的、适应性的，根据已检索到的信息动态生成子查询。
原子决策：动态决定每个子查询是否需要检索外部知识，还是直接依赖模型自身的参数化知识。

🖥️ 模型图输入输出转变

输入：问题（如“《指环王》三部曲的总时长是多少？”）
输出：经过多步推理和动态检索后，生成最终答案（如“558分钟”）。

在这个过程中，模型会动态生成子查询（如“《指环王：护戒使者》的时长是多少？”），并根据需要决定是否检索外部知识。最终，这些子查询的答案会被整合成最终答案。🧩

这种方法不仅提高了检索效率，还显著提升了回答的准确性，可以说是“推理界的瑞士军刀”！🎉

🧩 方法介绍

DeepRAG的框架可以分为三个关键步骤：

二叉树搜索（Binary Tree Search）
模型通过二叉树搜索为每个子查询探索两种策略：直接使用参数化知识或检索外部知识库。这不仅分解了问题，还考察了不同检索选择对最终答案的影响。🔍
模仿学习（Imitation Learning）
通过合成数据，让模型学习最优的推理路径，即在最小化检索成本的同时生成正确答案。这一步骤让模型学会了如何高效地分解问题并生成中间答案。🎓
链式校准（Chain of Calibration）
这一步进一步优化模型对自身知识边界的认知。通过合成偏好数据，模型可以更准确地判断何时需要检索，何时依赖内部知识。🔍