【LLM】为何DeepSeek 弃用MST却采用Rejection采样

在提升大语言模型（LLM）推理能力时，拒绝采样（Rejection Sampling）和马尔可夫搜索树（Markov Search Tree）是两个超强的技术。

拒绝采样 Rejection sampling🎯

概念
马尔可夫搜索树是一种结构化搜索方法，LLM 会探索一个推理路径树，每个节点代表一个状态（比如部分解决方案），边代表动作（比如逻辑步骤）。搜索过程由策略引导，优先探索有潜力的路径
原理

什么是RFT？
RFT（Rejection sampling Fine-Tuning）和SFT（Supervised Fine-Tuning）是两种用于微调机器学习模型的方法，特别是在自然语言处理领域。

SFT是一种常见的微调方法，主要步骤如下：

SFT的优点是相对简单直接，只需要高质量的标注数据即可。然而，SFT也有一些局限性，比如对标注数据的质量和数量要求较高。

RFT是一种更为复杂的微调方法，主要步骤如下：

RFT的关键在于筛选过程，这个过程可以显著提高数据的质量，从而提升模型的性能。筛选机制可以是人工的，也可以是基于某种自动化评分系统的。

区别

RFT的核心思想是利用已有的监督模型来生成新的数据样本，如果将其用于数学推理任务，那么可以通过选择正确的推理路径来增强模型的训练数据集。

将RFT用于数学推理任务，可以利用模型自身生成的数据来增强其推理能力，同时避免了昂贵的人工标注成本。这种方法特别适用于那些难以通过增加监督数据量来提升性能的场景，因为它允许模型从未充分利用的训练数据中学习新的推理策略。

和SFT相比较，RFT具有以下几点优势：

数据增强的有效性：RFT通过拒绝采样的方式，使用监督模型生成并收集正确的推理路径作为额外的微调数据集。这种方法可以在不增加人工标注工作量的情况下，增加数据样本，从而提高模型性能。
推理路径的多样性：RFT特别强调通过增加不同的推理路径来提高LLMs的数学推理能力。这意味着RFT能够提供多种解决问题的方法，有助于模型在面对新问题时有更好的泛化能力。
对性能较差模型的提升效果：论文中提到，RFT对于性能较差的LLMs提升更为明显。这表明RFT可能是一种更为有效的改进手段，特别是对于那些需要显著提高推理能力的模型。
组合多个模型的优势：RFT可以通过组合来自多个模型的拒绝样本来进一步提升性能。这种方法使得LLaMA-7B在GSM8K数据集上的准确率从SFT的35.9%显著提高到49.3%。
计算资源的经济性：尽管RFT在生成样本时可能需要较多的计算资源，但在训练阶段相比从头开始预训练一个LLM来说，它是一种更为经济的方法。这使得RFT成为一种可行的、成本效益更高的改进模型性能的手段。
减少过拟合：RFT通过引入多样化的推理路径，有助于减少模型在训练数据上的过拟合，特别是在大型模型中。