DeepScaleR：仅用 1.5B 参数超越 OpenAI O1-Preview 的强化学习模型

1. 项目概述

1.1 项目目标与意义

DeepScaleR 项目旨在通过强化学习技术推动人工智能模型的性能提升，以更低的成本实现更优的推理能力。其核心目标是开发出在特定任务上超越现有模型的高效模型，同时为开源社区提供技术参考，促进技术的普惠和创新。

技术突破：DeepScaleR-1.5B-Preview 模型在 AIME2024 基准测试中表现优异，Pass@1 准确率高达 43.1%，相比基础模型提升了 14.3%，并超越了 OpenAI 的 o1-preview。这一成果表明，通过优化训练策略和数据集设计，可以在较小的模型规模下实现显著的性能提升。
成本控制：项目采用知识蒸馏模型和强化学习迭代延长方法，将训练时间缩短至 3800 个 A100 GPU 小时，相当于 4500 美元的训练成本，相比传统方法节省了 18.42 倍的费用。
开源意义：DeepScaleR 的开源为开发者、学术界和企业提供了强大的技术基础，促进了全球开发者和研究者的合作与共享。开源后，开发者可以在其基础上进行定制化、优化和创新，推动技术的不断进步。https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

1.2 核心团队与背景

DeepScaleR 项目的核心团队由 UC 伯克利的研究人员组成，他们在强化学习和人工智能领域具有深厚的学术背景和丰富的实践经验。

团队构成：团队成员包括在强化学习和自然语言处理领域有多年研究经验的学者，他们在顶级学术会议上发表了多篇论文，并在相关领域获得了多项荣誉。
学术背景：团队成员在 UC 伯克利等顶尖高校接受了系统的学术训练，具备扎实的理论基础和前沿的研究视野。
技术经验：团队在模型训练、数据处理和算法优化等方面积累了丰富的经验，能够高效地解决实际问题并推动项目进展。

2. 技术方法

2.1 强化学习算法

DeepScaleR 项目采用了创新的强化学习算法来实现模型性能的显著提升。其核心策略是通过逐步扩展上下文长度和优化训练过程，使模型能够更高效地处理复杂任务。

训练策略：项目团队采用了“先短后长”的训练策略。首先使用较短的上下文长度（如 8K token）进行训练，以提高模型的推理效率和训练速度。在这一阶段，模型的平均训练奖励从 46% 提高到 58%，平均响应长度从 5500 token 减少到 3500 token。随后，逐步扩展上下文长度至 16K 和 24K token，使模型能够解决更具挑战性的问题。这一策略不仅提高了模型的性能，还显著降低了训练成本。
奖励函数设计：项目中采用了结果奖励模型（ORM）而非过程奖励模型（PRM），以避免模型通过投机取巧获得奖励。奖励函数的返回值为 1 或 0，分别表示模型的答案是否正确且格式规范。这种设计确保了模型在训练过程中能够专注于生成高质量的答案，而不是仅仅追求输出长度。
迭代增加上下文长度：项目通过逐步增加上下文长度的方式，使模型能够逐步适应更复杂的任务。在 8K 上下文长度的训练阶段，模型的 AIME2024 测试准确率达到了 22.9%，仅比原始模型低 6%。随后，通过扩展上下文长度至 16K 和 24K，模型的准确率逐步提升至 43.1%，最终超越了 OpenAI 的 o1-preview。

2.2 上下文长度扩展策略

上下文长度的扩展是 DeepScaleR 项目的关键技术之一，它使模型能够处理更复杂的任务，并显著提升推理能力。

逐步扩展上下文长度：项目团队通过逐步扩展上下文长度的方式，使模型能够逐步适应更长的推理路径。首先从 8K token 的上下文长度开始训练，然后逐步扩展至 16K 和 24K token。这种逐步扩展的策略不仅提高了模型的性能，还显著降低了训练成本。例如，在 8K 上下文长度的训练阶段，模型的平均响应长度从 5500 token 减少到 3500 token，这表明模型在较短的上下文中能够更高效地利用上下文空间。
上下文长度对性能的影响：随着上下文长度的增加，模型的性能显著提升。在 8K 上下文长度时，模型的 AIME2024 测试准确率为 22.9%；扩展至 16K 时，准确率提升至 38%；最终在 24K 上下文长度时，准确率达到了 43.1%。这一结果表明，较长的上下文长度为模型提供了更充足的思维空间，使其能够解决更复杂的任务。
上下文长度扩展的挑战与优化：扩展上下文长度虽然能够提升模型性能，但也带来了计算成本的增加。为了应对这一挑战，项目团队采用了知识蒸馏和强化学习迭代延长方法，将训练时间缩短至 3800 个 A100 GPU 小时，相当于 4500 美元的训练成本。这一优化策略不仅提高了训练效率，还显著降低了训练成本，使项目在保持高性能的同时，实现了成本的有效控制。

3. 数据集构建

3.1 数据来源与收集

DeepScaleR 项目的数据来源广泛且多样，确保了数据集的丰富性和代表性。项目团队采用了多种数据收集方法，以满足模型训练和优化的需求。

公开数据集：项目团队从多个公开数据源收集了大量数据，这些数据涵盖了自然语言处理、计算机视觉等多个领域。例如，从维基百科、新闻网站和学术论文中提取文本数据，用于训练模型的语言理解和生成能力。这些公开数据集为模型提供了广泛的知识基础，使其能够处理各种类型的自然语言任务。
网络爬虫：团队利用网络爬虫技术从互联网上抓取了大量数据。通过编写爬虫程序，自动收集了来自不同网站的文本、图像和视频数据。这些数据经过筛选和整理后，被用于模型的训练和验证。网络爬虫技术的应用不仅提高了数据收集的效率，还为模型提供了多样化的数据来源。
合作伙伴数据：项目团队与多家企业、研究机构和高校建立了合作关系，获取了大量高质量的专有数据。这些合作伙伴提供了特定领域的数据，如医疗、金融和教育等，使模型能够更好地适应不同行业的应用场景。例如，与医疗机构合作获取的医学文献和临床数据，为模型在医疗领域的应用提供了有力支持。
数据标注与整理：为了确保数据的质量和可用性，项目团队对收集到的数据进行了严格的标注和整理。团队成员和专业标注人员对数据进行了分类、标记和注释，确保每个数据样本都有明确的标签和描述。例如，在图像数据中，标注了物体的类别、位置和属性；在文本数据中，标注了句子的情感倾向、主题和语言风格。这一过程不仅提高了数据的质量，还为模型的训练提供了准确的指导。

3.2 数据预处理与清洗

数据预处理与清洗是 DeepScaleR 项目中至关重要的一环，它确保了数据的质量和一致性，为模型的高效训练和优化奠定了基础。

数据清洗：项目团队对收集到的数据进行了全面的清洗，以去除噪声、重复数据和错误信息。例如，通过检测和删除重复的文本段落和图像，减少了数据的冗余；利用正则表达式和文本匹配算法，识别并纠正了文本中的拼写错误和格式问题；对于图像数据，通过检测和修复损坏的图像文件，确保了数据的完整性和可用性。这些清洗步骤显著提高了数据的质量，使模型能够更准确地学习和泛化。
数据归一化：为了使不同来源的数据具有统一的格式和标准，项目团队对数据进行了归一化处理。例如，将文本数据转换为统一的编码格式，如 UTF-8；对图像数据进行标准化处理，使其像素值分布在 [0, 1] 的范围内；对数值数据进行标准化，使其均值为 0，标准差为 1。归一化处理不仅提高了数据的一致性，还加速了模型的训练过程，提高了训练效率。
数据增强：为了提高模型的泛化能力和鲁棒性，项目团队采用了多种数据增强技术。例如，在文本数据中，通过同义词替换、句子重组和随机插入等方法，生成了大量变体文本；在图像数据中，通过旋转、缩放、裁剪和颜色调整等操作，生成了多种变体图像。这些数据增强技术不仅增加了数据的多样性，还使模型能够更好地适应不同的输入条件，提高了模型的泛化能力。
特征选择与提取：项目团队对数据进行了特征选择和提取，以提高模型的训练效率和性能。例如，在文本数据中，提取了关键词、词性标注和句子结构等特征；在图像数据中，提取了边缘特征、纹理特征和颜色直方图等特征。这些特征不仅能够有效描述数据的内在属性，还减少了数据的维度，提高了模型的训练速度和性能。
数据划分：为了评估模型的性能和优化模型参数，项目团队将数据集划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于模型的参数调优，测试集用于评估模型的最终性能。数据划分的比例通常为 70% 训练集、15% 验证集和 15% 测试集。这种划分方式确保了模型在训练过程中能够充分学习数据的特征，同时在验证和测试阶段能够准确评估模型的性能，避免了过拟合和欠拟合的问题。

4.模型训练与优化

4.1 训练流程与参数设置

DeepScaleR 的训练策略为“先短后长”，

8K 上下文训练：使用 8K token 的上下文长度进行强化学习训练，鼓励高效思考。
16K 和 24K 上下文扩展：逐步扩展上下文长度至 16K 和 24K，解决更具挑战性的问题。

以下是训练流程和参数设置的详细描述：

训练阶段划分：训练过程分为三个主要阶段，分别是 8K、16K 和 24K 上下文长度的训练阶段。在 8K 阶段，模型主要进行短思考训练，以提高推理效率和训练速度；在 16K 和 24K 阶段，模型逐步扩展上下文长度，以解决更具挑战性的问题。
参数设置：在训练过程中，团队采用了多种参数设置来优化模型性能。例如，在 8K 阶段，使用了 8 块 A100 GPU 进行训练，训练步数为 1000 步；在 16K 和 24K 阶段，扩展到 32 块 A100 GPU 进行训练，训练步数分别为 500 步和 200 步。这些参数设置不仅提高了训练效率，还确保了模型在不同阶段的性能提升。
训练成本控制：通过采用知识蒸馏模型和强化学习迭代延长方法，项目将训练成本显著降低。整个训练过程共耗时约 3800 个 A100 GPU 小时，相当于 4500 美元的训练成本，相比传统方法节省了 18.42 倍的费用。这一优化策略不仅提高了训练效率，还实现了成本的有效控制。

4.2 性能提升的关键节点

DeepScaleR 项目在训练过程中，通过多个关键节点实现了性能的显著提升。以下是这些关键节点的详细描述：

8K 上下文长度阶段：在 8K 上下文长度阶段，模型的平均训练奖励从 46% 提高到 58%，平均响应长度从 5500 token 减少到 3500 token。这一阶段的优化不仅提高了模型的推理效率，还为后续的上下文扩展奠定了基础。
16K 上下文长度阶段：在 16K 上下文长度阶段，模型的 AIME2024 测试准确率从 22.9% 提升至 38%。这一阶段的扩展使模型能够处理更复杂的任务，并显著提升了推理能力。
24K 上下文长度阶段：在 24K 上下文长度阶段，模型的 AIME2024 测试准确率最终达到了 43.1%，超越了 OpenAI 的 o1-preview。这一阶段的扩展不仅为模型提供了更充足的思维空间，还使其能够解决更具挑战性的问题。
强化学习与知识蒸馏结合：项目通过将高质量的监督微调蒸馏与强化学习结合起来，实现了模型性能的显著提升。例如，在 AIME 测试中，仅用强化学习将准确率从 28.9% 提升到 43.1%。这一发现表明，单靠监督微调或强化学习都无法达到最佳效果，只有将两者结合起来，才能真正发挥大语言模型的推理潜力。

5. 模型评估与性能

5.1 评估指标与方法

DeepScaleR 项目采用了多种评估指标和方法，以全面衡量模型的性能和效果。这些指标和方法不仅涵盖了模型的准确性和效率，还考虑了模型在不同任务和场景下的适应性。

准确率（Accuracy）：准确率是衡量模型性能的核心指标之一，特别是在分类任务中。DeepScaleR 在 AIME2024 测试中，Pass@1 准确率达到了 43.1%，相比基础模型提升了 14.3%。这一指标表明，DeepScaleR 在解决复杂数学问题时具有较高的准确性和可靠性。
上下文长度（Context Length）：上下文长度是衡量模型推理能力的重要指标。DeepScaleR 通过逐步扩展上下文长度，从 8K 到 24K，显著提升了模型的推理能力。在 8K 上下文长度时，模型的 AIME2024 测试准确率为 22.9%；扩展至 16K 时，准确率提升至 38%；最终在 24K 上下文长度时，准确率达到了 43.1%。这一结果表明，较长的上下文长度为模型提供了更充足的思维空间，使其能够解决更复杂的任务。
训练成本（Training Cost）：训练成本是衡量模型开发效率的重要指标。DeepScaleR 通过优化训练策略，将训练成本显著降低。整个训练过程共耗时约 3800 个 A100 GPU 小时，相当于 4500 美元的训练成本，相比传统方法节省了 18.42 倍的费用。这一优化策略不仅提高了训练效率，还实现了成本的有效控制。
响应长度（Response Length）：响应长度是衡量模型输出效率的重要指标。在 8K 上下文长度阶段，DeepScaleR 的平均响应长度从 5500 token 减少到 3500 token。这一优化不仅提高了模型的推理效率，还减少了冗余输出，使模型能够更高效地利用上下文空间。

5.2 与其他模型的性能对比

DeepScaleR 在多个基准测试中表现出色，与现有模型相比具有显著的优势。以下是 DeepScaleR 与其他模型的性能对比分析：

与 OpenAI O1-Preview 的对比：DeepScaleR 在 AIME2024 测试中的 Pass@1 准确率达到了 43.1%，超越了 OpenAI 的 O1-Preview。这一结果表明，DeepScaleR 在处理复杂数学问题时具有更高的准确性和推理能力，即使在较小的模型规模下也能实现显著的性能提升。
与其他强化学习模型的对比：DeepScaleR 通过结合高质量的监督微调蒸馏和强化学习，实现了模型性能的显著提升。例如，在 AIME 测试中，仅用强化学习将准确率从 28.9% 提升到 43.1%。这一发现表明，单靠监督微调或强化学习都无法达到最佳效果，只有将两者结合起来，才能真正发挥大语言模型的推理潜力。
与同类开源模型的对比：DeepScaleR 的开源为开发者提供了强大的技术基础，促进了全球开发者和研究者的合作与共享。与其他开源模型相比，DeepScaleR 在性能和效率上具有显著优势，特别是在处理复杂任务和长上下文推理方面。例如，DeepScaleR 在 24K 上下文长度时的 AIME2024 测试准确率达到了 43.1%，这一性能水平在同类开源模型中处于领先地位。

6. 成本与效率分析

6.1 计算资源消耗

DeepScaleR 项目在计算资源消耗方面表现出色，通过优化训练策略和硬件配置，显著降低了训练成本。

GPU 配置与使用：项目团队采用了 8 块 A100 GPU 进行 8K 上下文长度的训练，随后扩展到 32 块 A100 GPU 用于 16K 和 24K 上下文长度的训练。整个训练过程共耗时约 3800 个 A100 GPU 小时，相当于 4500 美元的训练成本。这一配置不仅满足了模型训练的需求，还显著降低了计算成本。
上下文长度与资源消耗：随着上下文长度的增加，计算资源消耗也相应增加。在 8K 上下文长度时，模型的训练效率较高，平均响应长度从 5500 token 减少到 3500 token。扩展至 16K 和 24K 时，虽然计算资源消耗增加，但模型性能显著提升，最终在 24K 上下文长度时，AIME2024 测试准确率达到了 43.1%。
训练时间与效率：整个训练过程历时约 1750 步，其中 8K 阶段使用了 8 块 A100 GPU，16K 和 24K 阶段扩展到 32 块 A100 GPU。通过逐步扩展上下文长度，模型在每个阶段都能高效利用计算资源，避免了不必要的计算开销。

6.2 成本优化策略

DeepScaleR 项目通过多种策略实现了成本的显著优化，这些策略不仅降低了训练成本，还提高了训练效率。

知识蒸馏与强化学习结合：项目采用知识蒸馏模型和强化学习迭代延长方法，将训练时间缩短至 3800 个 A100 GPU 小时，相当于 4500 美元的训练成本。相比传统方法，这一策略节省了 18.42 倍的费用。通过从更大的模型中蒸馏得到高质量的监督微调数据，再结合强化学习，显著提升了模型的推理能力。
逐步扩展上下文长度：项目团队通过逐步扩展上下文长度的方式，使模型能够逐步适应更复杂的任务。在 8K 上下文长度阶段，模型的平均响应长度从 5500 token 减少到 3500 token，显著提高了训练效率。随后扩展至 16K 和 24K，模型性能逐步提升，最终在 24K 上下文长度时，AIME2024 测试准确率达到了 43.1%。
优化训练流程：项目团队通过精心设计的训练流程和参数设置，实现了模型性能的显著提升。例如，在 8K 阶段，使用 8 块 A100 GPU 进行训练，训练步数为 1000 步；在 16K 和 24K 阶段，扩展到 32 块 A100 GPU 进行训练，训练步数分别为 500 步和 200 步。这种分阶段的训练策略不仅提高了训练效率，还确保了模型在不同阶段的性能提升。# 7. 项目开源与贡献