【开源+代码解读】Search-R1:基于强化学习的检索增强大语言模型框架3小时即可打造个人AI-search

news/2025/3/14 20:59:52/

语言模型(LLMs)在处理复杂推理和实时信息检索时面临两大挑战:知识局限性(无法获取最新外部知识)和检索灵活性不足(传统方法依赖固定检索流程)。现有方法如检索增强生成(RAG)和工具调用(Tool-Use)存在以下问题:

  • RAG:单轮检索导致上下文不足,无法适应多轮交互场景。
  • 工具调用:依赖大量监督数据,难以扩展。
    在这里插入图片描述

SEARCH-R1,一种新的强化学习框架,使LLMs能够交替进行自我推理和实时搜索引擎交互。与现有的检索增强生成方法相比,SEARCH-R1通过强化学习优化LLMs展开,允许自主查询生成和战略利用检索信息。通过在七个数据集上的广泛实验,证明了SEARCH-R1显著增强了LLMs处理需要实时外部知识的复杂推理任务的能力

核心方法

强化学习与搜索引擎整合在这里插入图片描述

  • 环境建模:将搜索引擎作为环境的一部分,LLM生成文本与检索交替进行。
  • 算法支持:兼容PPO和GRPO算法,通过检索标记掩码(Retrieved Token Masking)提升训练稳定性。
    SEARCH - R1的RL框架公式如下:
    max ⁡ π θ E x ∼ D , y ∼ π θ ( ⋅ ∣ x ; R ) [ r ϕ ( x , y ) ] − β D K L [ π θ ( y ∣ x ; R ) ∣ ∣ π ref ( y ∣ x ; R ) ] \max_{\pi_{\theta}} E_{x\sim\mathcal{D}, y\sim\pi_{\theta}(\cdot\mid x;\mathcal{R})}\left[r_{\phi}(x, y)\right]-\beta D_{KL}\left[\pi_{\theta}(y\mid x;\mathcal{R})||\pi_{\text{ref}}(y\mid x;\mathcal{R})\right] πθmaxExD,yπθ(x;R)[rϕ(x,y)]βDKL[πθ(yx;R)∣∣πref(yx;R)]

其中, π θ \pi_{\theta} πθ是策略LLMs, π ref \pi_{\text{ref}} πref是参考LLMs, r ϕ r_{\phi} rϕ是奖励函数, D K L D_{KL} DKL是KL散度。

与现有的LLMs强化学习方法不同,SEARCH - R1明确结合了检索和推理的交替进行,即 π θ ( ⋅ ∣ x ; R ) \pi_{\theta}(\cdot\mid x;\mathcal{R}) πθ(x;R),可以看作 π θ ( ⋅ ∣ x ) ⊗ R \pi_{\theta}(\cdot\mid x)\otimes\mathcal{R} π


http://www.ppmy.cn/news/1579147.html

相关文章

软件工程概述、软件过程模型、逆向工程(高软45)

系列文章目录 软件工程概述、软件过程模型、逆向工程。 文章目录 系列文章目录前言一、软件工程概述二、能力成熟度模型1.能力成熟度模型CMM2.能力成熟度模型集成CMMI 三、软件过程模型1.瀑布模型SDLC2.原型化模型3.螺旋模型4.增量模型5.喷泉模型6.敏捷模型7.统一过程模型RUP 四…

基于deepseek的图像生成系统

目录 问题 核心思路 pollinations 提示词 基于deepseek的图像生成系统 项目说明 详细说明 1. 注册流程 2. 登录流程 3. 图片生成流程 4. 图片下载流程 项目结构 代码实现 1. 配置文件 config.py 2. 数据库模型 models.py 3. 解决循环引用 exts.py 4. 登录和…

大模型巅峰对决:DeepSeek vs GPT-4/Claude/PaLM-2 全面对比与核心差异揭秘

喜欢可以到主页订阅专栏 目录 技术架构对比性能表现与基准测试多模态与多语言能力推理效率与成本分析开源生态与行业适配应用场景与案例研究未来发展与技术趋势代码实现与调用示例1. 技术架构对比 DeepSeek:动态稀疏激活的混合专家系统(MoE) 动态路由机制:每个输入仅激活…

Opik - 开源 LLM 评估平台

文章目录 一、关于 Opik功能 二、🛠️ 安装三、🏁 开始使用1、📝 记录跟踪2、🧑‍⚖️ 作为法官的LLM指标3、🔍 评估您的 LLM 应用程序 一、关于 Opik Opik是一个开源平台,用于评估、测试和监控LLM应用程序…

游戏引擎学习第156天

仓库:https://gitee.com/mrxiao_com/2d_game_3 回顾 昨天的工作主要是展示了如何制作一个基础的粒子系统,可以看到我们制作的粒子系统其实很简单。我们使用了一些现成的资源,而粒子系统的效果看起来还不错。 今天的计划 今天我们继续讲解粒子系统&am…

【机器人-基础知识】欧拉角、旋转矩阵和四元数

1. 欧拉角 1.1. 欧拉角的定义 欧拉角是一组三个角度,用于描述一个刚体在三维空间中的定向关系。具体来说,它们表示从一个固定参考坐标系到刚体坐标系的一系列旋转。常见的定义方式是将总体旋转分解为三个连续的简单旋转,每次旋转都绕着当前坐标系的某一固定轴进行。 例如,…

Manus:成为AI Agent领域的标杆

一、引言 官网:Manus 随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独…

Git和GitHub基础教学

文章目录 1. 前言2. 历史3. 下载安装Git3.1 下载Git3.2 安装Git3.3 验证安装是否成功 4. 配置Git5. Git基础使用5.1 通过Git Bash使用5.1.1 创建一个新的仓库。5.1.1.1 克隆别人的仓库5.1.1.2 自己创建一个本地仓库 5.1.2 管理存档 5.2 通过Visual Studio Code使用 6. Git完成远…