DeepseekMath：超强开源数学模型（论文详解）

摘要

近日，中国团队Deepseek推出了一款名为DeepSeekMath的7B开源数学模型，这个模型在数学方面的表现令人惊叹。DeepSeekMath 7 B在不依赖外部工具包和投票技术的情况下，在竞赛级MATH基准测试中获得了51.7%的分数，接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath 7B的64个样本在数学上的自我一致性达到60.9%。

本文将深入探讨DeepSeekMath的技术特点和开发过程，以及它在数学领域中的潜力和应用前景。

1.简介

在本研究中，作者引入了DeepSeekMath，这是一个特定于领域的语言模型，它的数学性能显著优于开源模型，在学术基准测试中接近GPT-4的性能水平。

为了实现这一目标，作者创建了DeepSeekMath语料库，这是一个包含120 B个数学标记的大规模高质量预训练语料库。在初始迭代中，使用OpenWebMath中的实例来训练分类器作为正面例子，同时纳入了其他网页的多样化选择作为负面例子。随后，使用基于fastText的分类器从Common Crawl中挖掘额外的正实例，这些正实例通过人工标注进一步细化。然后用该增强的数据集更新分类器以提高其性能。评测结果表明，大规模语料库具有较高的质量，因为我们的基础模型DeepSeekMath-Base 7B在GSM 8 K上达到了64.2%和36.2%的竞争水平MATH数据集，性能优于Minerva 540 B。

DeepSeekMath利用DeepSeek-Coder-Base-v1. 57 B进行初始化，因为作者注意到，与一般的LLM相比，从代码训练模型开始是更好的选择。此外，作者观察到数学训练也提高了MMLU上的模型能力和BBH基准，表明它不仅增强了模型的数学能力，而且增强了一般推理能力。

在预训练之后，作者将数学指令调整应用于DeepSeekMath-Base，使其拥有思维链（chain-of-thought），程序链（program-of-thought）和工具集成推理（tool-integrated reasoning）的能力。由此产生的模型DeepSeekMath-Instruct 7 B击败了所有7 B对应模型，并与70 B开源指令调优模型相当。

此外，作者还介绍了组相对策略优化（GRPO），它是邻近策略优化（PPO）的一种变体强化学习算法。GRPO放弃了批评者模型，而是根据小组得分来估计基线，从而显著减少了培训资源。通过仅使用英语指令调优数据的子集，GRPO获得了相对于强大的DeepSeekMath-Instruct的实质性改进。

作者还提供了一个统一的范例来理解不同的方法，如拒绝采样微调（RFT），直接偏好优化（DPO）、PPO和GRPO。基于这样一个统一的范式，作者发现所有这些方法都可以被概念化为直接或简化的RL技术。最后，作者解释了为什么作者的RL提高了指令调优模型的性能，并进一步总结了基于这种统一范式实现更有效的RL的潜在方向。

总的来说，作者的贡献如下：

规模化数学预训练

通过实现精心设计的数据选择管道，作者成功构建了DeepSeekMath Corpus，这是一个高质量的数据集，包含120B个标记，这些标记来自经过数学内容过滤的网页，几乎是Minerva所使用的数学网页大小的7倍和最近发布的OpenWebMath的9倍大小
作者的预训练基础模型DeepSeekMath-Base 7 B实现了与Minerva 540 B相当的性能，表明参数的数量不是数学推理能力的唯一关键因素。在高质量数据上预先训练的较小模型也可以实现强大的性能。
回答了一个长期存在的问题：代码训练能提高推理能力吗？作者相信，至少在数学推理上是这样的。
尽管在arXiv论文上进行训练很常见，特别是在许多与数学相关的论文中，但它并没有带来显着的改进。

强化学习探析

作者引入了组相对策略优化（GRPO），这是一种高效且有效的强化学习算法。GRPO放弃了批评者模型，而是从组分数中估计基线，与最近策略优化（PPO）相比，显着减少了培训资源。GRPO显着提高了DeepSeekMath-Instruct的性能，通过单独使用预调数据。
作者提供了一个统一的范式来理解不同的方法，如RFT，DPO，PPO和GRPO。作者还进行了广泛的实验，以深入研究这种范式的基本要素。

2.数学预训练

数据收集和过滤

在本节中，我们将概述通过Common Crawl构建DeepSeekMath语料库的过程。

如图所示，这里展示了一个迭代管道，演示了如何从Common Crawl系统地收集大规模数学语料库，从种子语料库（例如，与数学相关数据集的小但高质量的数据集）。值得注意的是，这种方法也适用于其他领域，如编码。

首先，作者选择了OpenWebMath作为初始种子语料库，这是一个高质量的数学网络文本的集合。使用该语料库，作者训练了fastText模型，以寻找更多类似OpenWebMath-like数学网页。具体地说，作者从种子语料库中随机选取50万个数据点作为正样本，从Common Crawl中随机选取50万个网页作为负样本。为了减少原始Common Crawl的大小，作者采用了基于URL的重复数据删除和近似重复数据删除技术，产生了40 B HTML网页数据。

然后，作者用fastText模型从去重的Common Crawl中召回数学网页。为了过滤掉低质量的数学内容，作者根据fastText模型预测的分数对收集到的页面进行排名，只保留排名最高的页面。通过对前40 B、80 B、120 B和160 B令牌进行预训练实验来评估保留的数据量。在第一次迭代中，作者选择保留前40 B个令牌。

在数据收集的第一次迭代之后，大量的数学网页仍然没有被收集到，主要是因为fastText模型是在一组缺乏足够多样性的正例上训练的。因此，作者识别额外的数学网络资源来丰富种子语料库，以便优化fastText模型。具体地说，首先将整个Common Crawl组织到不相交的域中;域被定义为共享同一个基本URL的网页。对于每个域，计算在第一次迭代中收集的网页的百分比。已经收集了超过10%的网页的领域被分类为数学相关的（例如，mathoverflow.net）。随后，作者手动地注释与这些识别的域中的数学内容相关联的URL（例如，mathoverflow.net/questions).链接到这些URL但尚未收集的网页将被添加到种子语料库。该方法能够收集更多的正样本，从而训练出一个改进的fastText模型，该模型能够在后续的迭代中调用更多的数学数据。

经过四次迭代的数据收集，最终得到了3550万个数学网页，总计1200亿个令牌。在第四次迭代中，作者注意到在第三次迭代中已经收集了将近98%的数据，因此决定停止数据收集。

为了避免基准测试污染，作者过滤掉包含来自GSM8K、MATH、中文基准如 CMATH、AGIEval。过滤标准如下：从作者的数学训练语料库中删除与基准的任何子串达到10-gram匹配的任何文本片段。对于长度小于10-grams但至少3-grams的基准文本，作者采用精确匹配来过滤被污染的网页。

验证DeepSeekMath语料库的质量

作者运行预训练实验来将DeepSeekMath语料库与最近发布的数学训练语料库进行比较：

MathPile：从教科书、维基百科、ProofWiki、CommonCrawl、StackExchange和arXiv聚合的多源语料库（8.9B令牌），其中大部分（超过85%）来自arXiv;
OpenWebMath：根据数学内容过滤的CommonCrawl数据，总计136亿个令牌
Proof-Pile-2：一个数学语料库，由OpenWebMath、AlgebraicStack（10.3B数学代码令牌）和arXiv papers（28.0B令牌）组成。当在Proof-Pile-2上进行实验时，作者遵循Arzibayev等人（2023）使用的arXiv：Web：Code比例为2：4：1。

作者将数学训练应用于具有1.3B参数的一般预训练语言模型，该模型与DeepSeek LLM共享相同的框架，表示为DeepSeekLLM 1.3B。作者分别在每个数学语料库上训练一个模型，所有实验都使用高效和轻量级的HAI-LLM训练框架进行。

结论：DeepSeekMath语料库是高质量的，涵盖多语言的数学内容，并且是最大的。

高质量：如表所示，在DeepSeekMath语料库上训练的模型有明显的性能领先优势。图3显示，在DeepSeekMath语料库上训练的模型在50 B令牌上表现出比Proof-Pile-2更好的性能，这表明DeepSeekMath语料库的平均质量更高。
多语种：DeepSeekMath语料库包含多种语言的数据，主要以英语和中文为代表的两种语言。在DeepSeekMath语料库上的训练增强了英文和中文的数学推理性能。相比之下，现有的数学语料库，主要是以英语为中心，表现出有限的改善，甚至可能会阻碍中文数学推理的表现。
大规模：DeepSeekMath语料库比现有的数学语料库大几倍。如图3所示，DeepSeek-LLM 1.3 B在DeepSeekMath Corpus上训练时，显示出更陡峭的学习曲线沿着更持久的改进。相比之下，基线语料库要小得多，并且在训练过程中已经重复了多轮，由此产生的模型性能很快达到瓶颈期。

训练和评估DeepSeekMath-Base 7 B

作者的模型用DeepSeek-Coder-Base-v1.5 7 B作为基础模型，并接受了500 B token的训练。数据的分布如下：56%来自DeepSeekMath语料库，4%来自AlgebraicStack，10%来自arXiv，20%是Github代码，剩下的10%是来自Common Crawl的自然语言数据，包括英文和中文。

作者对DeepSeekMathBase 7B的数学能力进行了全面评估，重点是它在不依赖外部工具的情况下产生自包含数学解决方案的能力，使用工具解决数学问题的能力，以及进行形式化定理证明的能力。除了数学之外，作者还提供了基础模型的更一般的配置文件，包括其自然语言理解，推理和编程技能的性能。

使用逐步推理解决数学问题 作者评估了DeepSeekMathBase使用少量的思想链提示解决数学问题的性能。包括八个中英文基准，这些基准包括定量推理（例如，GSM 8 K，MATH和CMATH）和多项选择问题（例如，MMLU-STEM和高考-数学QA），涵盖了从小学到大学水平的复杂性数学的不同领域。

如表所示，DeepSeekMath-Base 7 B在开源基础模型取得领先的成绩。值得注意的是，在竞争级别的MATH数据集上，DeepSeekMath-Base超过现有的开源基础模型超过10%的绝对值，并且优于Minerva 540 B。

使用工具解决数学问题 作者使用较少的程序链（PoT）提示来评估GSM 8 K和MATH上的程序辅助数学推理。通过编写一个Python程序来提示模型解决每个问题，在Python程序中，可以利用math和sympy等库来进行复杂的计算。程序的执行结果被评估为回答。如表3所示，DeepSeekMath-Base 7 B优于现有技术的Llemma 34 B。

形式证明 自动化有利于保证数学证明的准确性和可靠性，提高证明效率，近年来受到越来越多的关注。作者在miniF 2F上进行评估，这是一个正式的奥林匹克水平的数学基准，并为每个问题生成一个正式的证明与few-shot提示。作者利用模型生成证明草图，并执行现成的自动证明器Sledgehammer来填补缺失的细节。如表3所示，DeepSeekMath-Base 7 B在证明自动形式化方面表现出强大的性能。

自然语言理解、推理和代码 作者评估了在MMLU、BBH以及HumanEval和MBPP上的自然语言理解模型性能。如表4所示，DeepSeekMath-Base 7B在MMLU和BBH上的性能比其前身DeepSeek-Coder-Base-v1.5有了显著的增强，说明了数学培训对语言理解和推理的积极影响。

此外，通过包括用于持续训练的代码数据，DeepSeekMath-Base 7B有效地保持了DeepSeek-Coder-Base-v1.5在两个编码基准上的性能。

总体而言，DeepSeekMath-Base 7B在三个推理和编码基准上的表现明显优于通用模型Mistral 7B。

3.监督微调

SFT数据管理

作者构建了一个数学指令调整数据集，该数据集涵盖了来自不同数学领域和不同复杂度水平的英语和汉语问题：问题与思路链（CoT）的解决方案配对、程序链（PoT）和工具集成推理格式。训练实例的总数为776 K。

英语数学数据集：作者用工具集成解决方案注释GSM 8 K和MATH问题，并采用MathInstruct的子集，其中问题通过CoT或PoT解决。作者的英语数据集涵盖了数学的各个领域，例如，代数概率数论微积分和几何
中文数学数据集：作者收集了中国K-12数学问题，涵盖76个子主题，例如线性方程，并以CoT和工具集成推理格式注释解决方案。

训练和评估DeepSeekMath-Instruct 7B

训练数据被随机连接，直到达到4K令牌的最大上下文长度。训练模型总计500步，批量大小为256，恒定学习率为5e-5。

作者将模型与当时的领先模型进行比较：

闭源模型包括：（1）GPT家族，其中GPT-4和GPT-4代码解释器是最有能力的，（2）Gemini Ultra和Pro、（3）Inflection-2、（4）Grok-1，以及中国公司最近发布的型号，包括（5）百川-3、（6）GLM家族中最新的GLM-4。这些模型都是通用的，其中大部分都经过了一系列的校准程序。
开源模型包括：通用模型，如（1）DeepSeek-LLM-Chat 67 B，（2）Qwen 72 B，（3）SeaLLM-v2 7 B和（4）ChatGLM 3 6 B，以及具有数学增强的模型，包括（5）InternLM 2-Math 20 B 6，其建立在InternLM 2上并经历数学训练，然后进行指令调整，（6）Math-Shepherd-Mistral 7 B，其应用PPO训练到Mistral 7 B与过程监督奖励模型，（7）WizardMath系列，其改进了Mistral 7 B和Llama-2 70 B中的数学推理指令和PPO训练，其中训练问题主要来源于GSM 8 K和MATH，（8）MetaMath 70 B，其是在GSM 8 K和MATH的增强版本上微调的Llama-2 70 B，（9）ToRA 34 B，其是微调的CodeLlama 34 B以进行工具集成数学推理，（10）MAmmo 70 B，这是Llama-2 70 B的微调数学指令模型。

如表5所示，在不允许使用工具的评估设置下，DeepSeekMathInstruct 7 B展示了强大的逐步推理性能。值得注意的是，在MATH数据集上，作者的模型超过了所有开源模型和大多数专有模型（即使对于大得多的模型（例如，Qwen 72 B）或通过以数学为中心的强化学习（例如，WizardMath-vl. 17B））。虽然DeepSeekMath-Instruct在MATH上可以与中国所有模型GLM-4和百川-3相媲美，但它仍然不如GPT-4和Gemini Ultra。

在允许模型集成自然语言推理和基于程序的工具用于解决问题的评估设置下，DeepSeekMath-Instruct 7 B在MATH上的准确率接近60%，超过了所有现有的开源模型。在其他基准测试中，我们的模型与DeepSeek-LLM-Chat 67 B具有竞争力，后者是现有技术的10倍。

4.强化学习

组相关策略优化（GRPO）

强化学习（RL）已被证明在监督微调（SFT）阶段之后在进一步提高LLM的数学推理能力方面是有效的。在这一部分中，作者介绍了高效和有效的RL算法——组相对策略优化（GRPO）。

近端策略优化（PPO）是广泛用于LLM的RL微调阶段的行动者-批评者RL算法。特别是，它通过最大化以下替代目标来优化LLM：

其中， $\pi _\theta$ 和 $\pi _{\theta_{old}}$ 分别是当前和旧策略模型，q和o分别是从问题数据集和旧策略模型中采样的。 $\varepsilon$ 是PPO中引入的用于稳定训练的裁剪相关超参数。 $A_t$ 是通过应用广义优势估计（GAE）计算的优势，其基于奖励 $\left \{ r_{\geq t} \right \}$ 和学习值函数𝑉𝜓。因此，在PPO中，价值函数需要与策略模型一起训练，并且为了减轻奖励模型的过度优化，标准方法是在每个令牌的奖励中添加来自参考模型的每个令牌KL惩罚，即

其中，𝑟𝜑是奖励模型，𝜋𝑟𝑒𝑓是参考模型，其通常是初始SFT模型，𝛽是KL惩罚的系数。

由于PPO中采用的值函数通常是与策略模型大小相当的另一个模型，因此它带来了大量的内存和计算负担。此外，在RL训练期间，值函数被视为计算方差减少优势的基线。而在LLM上下文中，通常只有最后一个令牌被奖励模型分配奖励分数，这可能使在每个令牌处准确的值函数的训练复杂化。

为了解决这个问题，作者提出了组相对策略优化（GRPO），它消除了PPO中额外的价值函数近似的需要，而是使用响应同一问题产生的多个采样输出的平均奖励作为基线。更具体地说，对于每个问题𝑞，GRPO从旧的策略模型 $\pi _{\theta_{old}}$ 中抽取一组输出 $\left \{ o_1,o_2,...,o_G \right \}$ ，然后通过最大化以下目标来优化策略模型：

其中， $\varepsilon$ 和 $\beta$ 是超参数， $\hat{A}_{i,t}$ 是仅基于每个组内的输出的相对回报计算的优势。GRPO用来计算优势的群体相对方式与奖励模型的比较性质非常一致，因为奖励模型通常是在同一问题的输出之间的比较数据集上训练的。还要注意的是，GRPO没有在奖励中添加KL惩罚，而是通过直接将训练策略和参考策略之间的KL分歧添加到损失中来进行正则化，从而避免计算 $\hat{A}_{i,t}$ 。另外，与（2）中使用的KL惩罚项不同，作者使用以下无偏估计量估计KL散度：这保证是正的。

监督RL与GRPO的结果

形式上，对于每个问题q，从旧策略模型 $\pi _{\theta_{old}}$ 中采样一组输出 $\left \{ o_1,o_2,...,o_G \right \}$ 。然后使用奖励模型对输出进行评分，相应地产生奖励 $r=\left \{ r_1,r_2,...,r_G \right \}$ 。随后，通过减去组平均值并除以组标准差来将这些奖励标准化。结果监督在每个输出结束时提供归一化的奖励，并将输出中所有令牌的优点设置为归一化的奖励，即， $\hat{A}_{i,t}=\tilde{r_i}=\frac{r_i-mean(r)}{std(r)}$

带有GRPO的过程监督RL

结果监督仅在每个输出结束时提供奖励，这可能不足以有效地监督复杂数学任务中的策略。作者还探索了过程监督，它在每个推理步骤结束时提供奖励。形式上，给定问题q和采样的输出 $\left \{ o_1,o_2,...,o_G \right \}$ ，过程奖励模型用于对输出的每个步骤进行评分，产生相应的奖励： $R=\left \{ \left \{ r_1^{index(1)}, ..., r_1^{index(K_1)} \right \},..., \left \{ r_G^{index(1)}, ..., r_G^{index(K_1)} \right \} \right \}$ ，其中 index(j) 是第j步骤的结束令牌索引， $K_i$ 是输出中的第i次输出的总数。作者还用平均值和标准差对这些奖励进行了归一化，即， $\tilde{r_i}^{index(j)}=\frac{r_i^{index(j)}-mean(R)}{std(R)}$ 。随后，过程监督将每个令牌的优势计算为来自以下步骤的归一化奖励的总和，即， $\hat{A}_{i,t}=\sum_{index(j)\geq t}\tilde{r_i}^{index(j)}$

使用GRPO的迭代RL

随着强化学习训练过程的进展，旧的奖励模型可能不足以监督当前的策略模型。因此作者也探讨了迭代RL与GRPO。

如算法1所示，在迭代GRPO中，根据策略模型的采样结果为奖励模型生成新的训练集，并使用包含10%历史数据的重放机制不断训练旧的奖励模型。然后，作者将参考模型设置为策略模型，并使用新的奖励模型继续训练策略模型。

训练和评估DeepSeekMath-RL

作者在DeepSeekMath-Instruct 7 B的基础上进行了强化学习。RL的训练数据是来自SFT数据的与GSM 8 K和MATH相关的思维链格式的问题，其中包括大约144 K个问题。作者排除了其他SFT问题，以调查RL对整个RL阶段缺乏数据的基准的影响。

对于每个问题，作者对64个输出进行了抽样。最大长度设置为1024，定型批大小为1024。策略模型在每个探索阶段之后只有一次更新。

作者在DeepSeekMath-Instrut 7 B之后的基准测试中评估了DeepSeekMath-RL 7 B。对于DeepSeekMath-RL 7 B、GSM 8 K和MATH（具有思维链推理），可以将其视为域内任务，而所有其他基准测试都可以视为域外任务。

表5展示了开放源代码和闭源代码模型在英语和中文基准测试中的性能，其中包括思想链和工具集成推理。可以发现：1）DeepSeekMath-RL 7 B在GSM 8 K和MATH上分别达到88.2%和51.7%的准确率，利用思维链推理，这一性能超过了7 B到70 B范围内的所有开源模型以及大多数闭源模型。2)至关重要的是，DeepSeekMath-RL 7 B只在GSM 8 K和MATH的思想链格式指令调优数据上进行训练，从DeepSeekMath-Instruct 7 B开始。尽管其训练数据的范围有限，但它在所有评估指标上都优于DeepSeekMath-Instruct 7 B，展示了强化学习的有效性。

5.讨论

训练前的经验教训

代码训练有利于数学推理

一个流行但未经证实的假设表明，代码训练可以提高推理能力。作者试图对此提供部分回应，特别是在数学领域：代码训练提高了模型在使用和不使用工具的情况下进行数学推理的能力。

为了研究代码训练如何影响数学推理，作者尝试了以下两阶段训练和一阶段训练设置：

两阶段训练

400 B token的代码训练→ 150 B token的数学训练：作者先为400 B代码token训练DeepSeekLLM 1.3B，然后再使用150 B数学token训练;
400 B token的一般训练→ 150 Btoken的数学训练：作为对照实验，作者还尝试使用通用数据，（从DeepSeek-AI创建的大规模通用语料库中采样）而不是第一阶段训练中的代码token，试图研究代码标记在改进数学推理方面优于一般标记的优点。

一阶段训练

150 B数学token的数学训练：我们为150 B数学token训练DeepSeek-LLM 1. 3B;
在400 B代码token和150 B数学token的混合上训练：代码训练之后的数学训练会降低编码性能。作者调查了代码token与数学token混合进行一阶段训练时是否仍能改善数学推理并缓解灾难性遗忘的问题。

结果表6和表7展示了不同训练设置下的下游性能。代码训练有利于程序辅助数学推理，无论是在两阶段训练和一阶段训练设置。如表6所示，在两阶段训练设置下，单独的代码训练已经显著增强了使用Python解决GSM8K和MATH问题的能力。第二阶段的数学训练会带来进一步的提高。有趣的是，在一阶段训练设置下，混合代码令牌和数学令牌有效地缓解了两阶段训练产生的灾难性遗忘问题，并且还协同编码（表7）和程序辅助数学推理（表6）。

代码训练还可以在不使用工具的情况下提高数学推理能力。在两阶段训练设置下，代码训练的初始阶段已经产生了适度的增强。它还提高了后续数学训练的效率，最终产生最佳表现。然而，将代码令牌和数学令牌组合用于一阶段训练会在不使用工具的情况下损害数学推理。一种猜测是，由于规模有限，DeepSeek-LLM 1.3B缺乏同时完全吸收代码和数学数据的能力。

ArXiv论文似乎对改善数学推理无效

ArXiv论文通常作为数学预训练数据的组成部分被包括在内。然而，关于它们对数学推理的影响的详细分析尚未广泛进行。根据作者的实验，arXiv的论文似乎对提高数学推理能力无效，这或许与直觉相反。作者用不同大小的模型进行实验，包括DeepSeek-LLM 1.3B和DeepSeek-Coder-Base-v1. 57 B，使用经过各种处理管道的arXiv语料库：

MathPile：使用清洗和过滤启发式规则开发的8. 9B令牌语料库，其中85%以上是科学arXiv论文;
ArXiv-RedPajama：删除了所有arXiv LaTeX文件，其中删除了注释、宏和参考书目，总计280亿个令牌。

在作者的实验中，作者分别在每个arXiv语料库上为150 B令牌训练DeepSeek-LLM 1.3B和为40 B令牌训练DeepSeekCoder-Base-v1.5 7 B。看来arXiv论文在提高数学推理方面是无效的。当在仅使用arXiv的语料库上训练时，这两个模型在本研究中采用的不同复杂度的各种数学基准上都没有显着的改善甚至恶化。这些基准包括定量推理数据集，如GSM 8 K和MATH（表8），多项选择题，如MMLU-STEM（表8），以及形式数学，如miniF 2F（表9）。

然而，这一结论有其局限性，应该持保留态度。作者还没有研究过：

arXiv令牌对本研究中未包括的特定数学相关任务的影响，例如将正式陈述或证明转换为非正式版本的定理的非正式化;
arXiv令牌与其他类型的数据结合时的效果;
arXiv论文的好处是否会在更大的模型规模上体现出来。因此，还需要进一步的探索，留待以后研究。

强化学习的见解

走向统一范式

在本节中，作者提供了一个统一的范式来分析不同的训练方法，如SFT，RFT，DPO，PPO，GRPO，并进一步进行实验，以探索统一范式的因素。通常，相对于训练方法的参数λ的梯度可以写为：

存在三个关键组成部分：1）数据源D，其确定训练数据; 2）奖励函数𝑓，其是训练奖励信号的源; 3）算法A：其将训练数据和奖励信号处理为梯度系数，梯度系数确定数据的惩罚或强化的大小。作者基于这样一个统一的范式分析了几种有代表性的方法：

监督微调（SFT）：SFT根据人类选择的SFT数据对预训练模型进行微调。
拒绝采样微调（RFT）：RFT根据SFT问题，对从SFT模型采样的过滤输出进一步微调SFT模型。RFT根据其答案的正确性过滤输出。
直接偏好优化（DPO）：DPO通过使用成对DPO损失对从SFT模型采样的增强输出进行微调来进一步细化SFT模型。
在线拒绝采样微调（Online RFT）：与RFT不同，在线RFT使用SFT模型启动策略模型，并通过从实时策略模型中采样的增强输出进行微调。
PPO/GRPO：PPO/GRPO使用SFT模型对策略模型进行建模，并使用从实时策略模型中采样的输出对其进行增强。

观察数据源，作者将数据源分为两类，在线采样和离线采样。在线采样表示训练数据来自实时训练策略模型的探索结果，而离线采样表示训练数据来自初始SFT模型的采样结果。RFT和DPO遵循离线风格，而在线RFT和GRPO遵循在线风格。

如图5所示，作者发现在线RFT在两个基准测试中明显优于RFT。具体而言，在线RFT在培训早期与RFT相当，但在后期获得绝对优势，显示了在线培训的优越性。这是直观的，因为在初始阶段，演员和SFT模型表现出非常相似，采样数据只显示出微小的差异。然而，在后期阶段，从参与者采样的数据将表现出更显著的差异，实时数据采样将提供更大的优势。

梯度系数的观测算法 将奖励信号处理为梯度系数，以更新模型参数。在作者的实验中，作者将奖励函数分为“规则”和“模型”。规则是指根据答案的正确性来判断响应的质量，模型是指训练一个奖励模型来对每个响应进行评分。奖励模型的训练数据基于规则判断。

GRPO和在线RFT之间的关键区别：GRPO基于奖励模型提供的奖励值唯一地调整其梯度系数。这允许根据反应的不同幅度对反应进行不同的强化和惩罚。相比之下，在线RFT缺乏这一功能;它不会惩罚不正确的回答，并以相同的强度统一强化所有正确答案的回答。

为什么RL有作用？

本文提出了一种基于指令调优数据子集的强化学习方法，该方法在指令调优模型的基础上取得了显著的性能提升。为了进一步解释强化学习为什么有效。作者在两个基准上评估了Instrut和RL模型的Pass@K和Maj@K准确度。如图7所示，RL增强了Maj@K的性能，但未增强Pass@K的性能。

这些发现表明，RL通过使输出分布更加稳健来增强模型的整体性能，换句话说，这种改进似乎归因于提升了来自TopK的正确响应，而不是基本能力的增强。类似地，有研究指出了SFT模型内推理任务中的不一致问题，表明SFT模型的推理性能可以通过一系列偏好一致策略来提高。

如何实现更有效的RL？

存在三个关键组件：数据源、算法和奖励函数。

数据源 数据源是所有训练方法的原始资料。在RL的上下文中，作者特别将数据源称为未标记问题，其输出是从策略模型中采样的。在本文中，只使用来自指令调优阶段的问题和一个朴素核采样来采样输出。作者认为这是RL流水线仅能提高Maj@K性能的一个潜在原因。将来，作者将结合高级采样（解码）策略，如基于树搜索方法的策略，探索我们的分布外问题提示的RL管道。而且，有效的推理技术决定了政策模式的探索效率，也发挥着极其重要的作用。

算法算法对数据进行处理，并将信号反馈给梯度系数，以更新模型参数。在某种程度上，所有方法现在都完全信任奖励函数的信号来增加或减少某个令牌的条件概率。然而，不可能确保奖励信号总是可靠的，特别是在极其复杂的任务中。例如，即使是PRM800K数据集，已经由训练有素的注释者仔细注释，仍然包含大约20%的错误注释。为此，作者将探索对嘈杂奖励信号具有鲁棒性的强化学习算法。作者认为这种从弱到强的对齐方法将给学习算法带来根本性的变化。

奖励函数 奖励函数是训练信号的来源。在RL中，奖励函数通常是神经奖励模型。作者认为奖励模型的研究有三个重要的方向：1）如何提高奖励模型的泛化能力。奖励模型必须有效地推广到处理分布外问题和高级解码输出，否则，强化学习可能仅仅稳定了LLM的分布，而不能提高其基本能力; 2）如何反映奖励模型的不确定性。这种不确定性可能潜在地充当弱奖励模型和弱到强学习算法之间的连接桥梁; 3）如何有效地构建高质量的过程奖励模型，该模型可以为推理过程提供细粒度的训练信号。

6.总结

DeepSeek-Math是由DeepSeek团队推出的一款专注于数学问题解决的人工智能模型，它在数学领域的表现令人瞩目，为解决复杂的数学问题提供了一种全新的高效途径。该模型经过大量数学数据的训练，涵盖了从基础算术到高等数学的广泛内容，能够精准地理解和解答各种数学问题，包括但不限于代数方程、微积分、概率统计以及几何问题等。

DeepSeek-Math的核心优势在于其强大的逻辑推理能力和精准的计算能力。它能够快速解析复杂的数学表达式，通过逐步推理和计算，给出清晰、准确的结果。这种能力不仅适用于学术研究和教育领域，还能在实际工程和数据分析中发挥重要作用。例如，在解决优化问题时，DeepSeek-Math可以快速找到最优解，为决策提供有力支持；在教育领域，它能够为学生提供详细的解题步骤，帮助他们更好地理解和掌握数学知识。

此外，DeepSeek-Math还具备高度的灵活性和可扩展性。它可以根据不同的应用场景进行定制化调整，无论是简单的数学问题还是复杂的多变量方程，都能轻松应对。这种灵活性使得DeepSeek-Math在多个领域都具有广泛的应用前景，比如金融风险评估、科学研究、工程设计以及教育辅导等。

总的来说，DeepSeek-Math是一款功能强大、应用广泛的数学人工智能模型。它不仅能够快速准确地解决各种数学问题，还能为用户提供详细的解题步骤和分析，帮助用户更好地理解和掌握数学知识。无论是学生、教师还是专业人士，都能从DeepSeek-Math中受益，它无疑是数学领域的一个重要突破和有力工具。

如果你觉得我的内容对你有帮助，或者让你眼前一亮，那就太好了！🎉

🌟 点赞是对我最大的鼓励，你的每一个赞都是我继续努力的动力！

👀 关注我，这样你就不会错过我接下来的精彩内容啦！我会持续分享更多有趣、有用的知识和见解。

📌 收藏这篇文章，以后需要的时候可以随时回顾，方便又实用！

如果你还有任何问题或想法，欢迎随时在评论区留言，我会第一时间回复你。让我们一起交流、一起进步！

感谢你的支持，希望我们都能在这个知识的海洋里，收获满满！💖