【LLM】为何DeepSeek 弃用MST却采用Rejection采样

server/2025/2/6 18:38:04/

文章目录

  • 拒绝采样 Rejection sampling🎯
  • 马尔可夫搜索树 🌳
  • RFT和SFT
    • 1. RFT和SFT的区别
    • 2. 如何将RFT用于数学推理任务?
  • Reference

在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。

拒绝采样 Rejection sampling🎯

  1. 概念
    模型生成多个候选答案,然后过滤掉不符合条件的,只保留“好”的结果。
  2. 原理
  • LLM 生成一堆候选答案(比如推理路径或解决方案)
  • 通过评分函数(比如正确性、逻辑性)评估每个候选答案。
  • 不符合条件的答案被拒绝,最终选出最好的一个。
  1. 优点
  • 简单实现起来超简单
  • 适用于各种任务,比如数学题、代码生成
  • 只保留高质量的输出,结果更可靠
  1. 缺点
  • 生成很多样本,大部分都被丢弃,计算成本高
  • 任务越复杂,需要的样本量指数级增长
  • 结果质量完全取决于评分函数的好坏
  1. 应用场景
  • 解数学题:生成多个答案,选出正确的那个
  • 代码生成:生成多个代码片段,选出能编译通过的。

马尔可夫搜索树 🌳

  1. 概念
    马尔可夫搜索树是一种结构化搜索方法,LLM 会探索一个推理路径树,每个节点代表一个状态(比如部分解决方案),边代表动作(比如逻辑步骤)。搜索过程由策略引导,优先探索有潜力的路径
  2. 原理
  • 逐步构建树结构,每次扩展最有潜力的节点
  • 通过启发式函数(比如成功的可能性或目标一致性)引导搜索。
  • 直到找到满意的解决方案或资源耗尽为止
  1. 优点
  • 集中资源探索有潜力的路径,减少浪费
  • 系统化地探索复杂推理空间,更有条理
  • 可以结合领域知识,提升搜索效果
  1. 缺点
  • 需要精心设计树结构和启发式函数。
  • 维护和扩展树结构可能消耗较多资源。
  • 如果启发式函数设计不好,可能会卡在次优路径上。
  1. 应用场景
  • 解决谜题或证明定理,探索不同的推理链。
  • 规划任务:生成分步计划(比如机器人或游戏)

SFT_47">RFT和SFT

SFT_48">1. RFT和SFT的区别

什么是RFT?
RFT(Rejection sampling Fine-Tuning)和SFT(Supervised Fine-Tuning)是两种用于微调机器学习模型的方法,特别是在自然语言处理领域。

SFT是一种常见的微调方法,主要步骤如下:

  1. 数据收集:收集大量的标注数据,这些数据通常由人类专家根据特定任务进行标注。

  2. 模型训练:使用这些标注数据对预训练模型进行微调,使其在特定任务上表现更好。

  3. 评估和优化:通过验证集评估模型性能,并根据结果进行优化。

SFT的优点是相对简单直接,只需要高质量的标注数据即可。然而,SFT也有一些局限性,比如对标注数据的质量和数量要求较高。

RFT是一种更为复杂的微调方法,主要步骤如下:

  1. 数据生成:首先使用预训练模型生成大量的候选输出。

  2. 筛选过程:通过某种筛选机制(如人工评审或自动评分系统)从这些候选输出中挑选出高质量的样本。

  3. 模型训练:使用筛选后的高质量样本对模型进行微调。

RFT的关键在于筛选过程,这个过程可以显著提高数据的质量,从而提升模型的性能。筛选机制可以是人工的,也可以是基于某种自动化评分系统的。

区别

  1. 数据来源:
  • SFT:依赖于预先标注好的高质量数据。

  • RFT:通过生成大量候选输出,然后筛选出高质量样本。

  1. 数据质量控制:
  • SFT:数据质量主要依赖于标注过程的质量控制。

  • RFT:通过筛选机制来确保数据质量,即使初始生成的数据质量不高,也可以通过筛选提高。

2. 如何将RFT用于数学推理任务?

RFT的核心思想是利用已有的监督模型来生成新的数据样本,如果将其用于数学推理任务,那么可以通过选择正确的推理路径来增强模型的训练数据集。

  1. 生成候选推理路径:使用一个已经通过监督微调(SFT)训练好的模型来生成针对训练集中每个问题的多个候选推理路径。这些路径包括一系列计算步骤,旨在解决问题。

  2. 筛选正确路径:从生成的候选路径中筛选出那些能够正确推导出问题答案的推理路径。

  3. 去重和多样化:进一步从筛选出的正确路径中选择具有不同计算过程或表达方式的路径,以增加数据集的多样性。这有助于模型学习不同的解决问题的方法。

  4. 微调:使用这些经过筛选和去重的推理路径作为新的训练数据,对原始的监督模型进行进一步的微调。

  5. 提高泛化能力:通过引入多样化的推理路径,RFT旨在提高模型在未见过的问题上的泛化能力。

将RFT用于数学推理任务,可以利用模型自身生成的数据来增强其推理能力,同时避免了昂贵的人工标注成本。这种方法特别适用于那些难以通过增加监督数据量来提升性能的场景,因为它允许模型从未充分利用的训练数据中学习新的推理策略。

SFT相比较,RFT具有以下几点优势:

  1. 数据增强的有效性:RFT通过拒绝采样的方式,使用监督模型生成并收集正确的推理路径作为额外的微调数据集。这种方法可以在不增加人工标注工作量的情况下,增加数据样本,从而提高模型性能。

  2. 推理路径的多样性:RFT特别强调通过增加不同的推理路径来提高LLMs的数学推理能力。这意味着RFT能够提供多种解决问题的方法,有助于模型在面对新问题时有更好的泛化能力。

  3. 对性能较差模型的提升效果:论文中提到,RFT对于性能较差的LLMs提升更为明显。这表明RFT可能是一种更为有效的改进手段,特别是对于那些需要显著提高推理能力的模型。

  4. 组合多个模型的优势:RFT可以通过组合来自多个模型的拒绝样本来进一步提升性能。这种方法使得LLaMA-7B在GSM8K数据集上的准确率从SFT的35.9%显著提高到49.3%。

  5. 计算资源的经济性:尽管RFT在生成样本时可能需要较多的计算资源,但在训练阶段相比从头开始预训练一个LLM来说,它是一种更为经济的方法。这使得RFT成为一种可行的、成本效益更高的改进模型性能的手段。

  6. 减少过拟合:RFT通过引入多样化的推理路径,有助于减少模型在训练数据上的过拟合,特别是在大型模型中。

Reference

[1] RFT(拒绝采样微调):提升大模型推理能力
[2] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

在这里插入图片描述


http://www.ppmy.cn/server/165482.html

相关文章

文本分析NLP的常用工具和特点

1)非上下文感知型文本分析工具和特点 特性VADERTextBlob适合文本类型短文本、非正式语言(如评论、推文)中等长度、正式文本情感强度分析支持(正面、负面、中性)支持(极行、主观性)处理表情符号…

计算机网络笔记再战——理解几个经典的协议5——围绕IP的几个辅助协议

目录 DNS DNS查询 ARP ICMP DHCP NAT DNS 没人喜欢天天背诵,输入一场串IP!我们需要一个稍微有含义一点的名称——比如说www.google.com来标记我访问的是谷歌,而不是一大长串的IP地址!域名服务解析就是一个完成这样的功能的一…

【gRPC-gateway】初探grpc网关,插件安装,默认实现,go案例

grpc-gateway https://github.com/grpc-ecosystem/grpc-gateway 作用 通过反向代理的方式,将grpc server接口转为httpjson api 使用场景 向后兼容支持grpc不支持的语言或客户端 单纯用grpc实现的服务端代码,只能用grpc客户端调用,&#…

服务器虚拟化实战:架构、技术与最佳实践

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 服务器虚拟化是现代 IT 基础设施的重要组成部分,通过虚拟化技术可以提高服务器资源利用率、降低硬件成本&am…

fastadmin加密生成token

安装git sudo yum install git 在项目中安装 firebase/php-jwt composer require firebase/php-jwt 注意:PHP7.4以上,安装fileinfo 如果还有问题在PHP配置里禁止: ;disable_functions passthru,exec,system,putenv,chroot,chgrp,chown,s…

大语言模型轻量化:知识蒸馏的范式迁移与工程实践

大语言模型轻量化:知识蒸馏的范式迁移与工程实践 🌟 嗨,我是LucianaiB! 🌍 总有人间一两风,填我十万八千梦。 🚀 路漫漫其修远兮,吾将上下而求索。 摘要 在大型语言模型&#xff…

Java 中 LinkedList 的底层源码

在 Java 的集合框架中,LinkedList是一个独特且常用的成员。它基于双向链表实现,与数组结构的集合类如ArrayList有着显著差异。深入探究LinkedList的底层源码,有助于我们更好地理解其工作原理和性能特点,以便在实际开发中做出更合适…

GWO优化SVM回归预测matlab

灰狼优化算法(Grey Wolf Optimizer,简称 GWO),是由澳大利亚格里菲斯大学的 Mirjalii 等人于 2014 年提出的群智能优化算法。该算法的设计灵感源自灰狼群体的捕食行为,核心思想是对灰狼社会的结构与行为模式进行模仿。 …