推理模型专题 | 开源类O1：Marco-o1技术全面解读

引言
简介
Marco推理数据集
通过MCTS扩展解空间
- 前置知识：蒙特卡罗树搜索（MCTS）
- MCTS扩展解空间
推理行动策略
- 行动选择
- 思考后的反思
实验
- 设置
- 主要结果
- 翻译任务案例研究
总结

0. 引言

小伙伴们好，我是《小窗幽记机器学习》的小编卖铁观音的柯南。

OpenAI的o1模型的出现：

OpenAI o1三部曲：上篇-概述、

OpenAI o1三部曲：中篇-原理、

OpenAI o1三部曲：下篇-乞丐版o1-mini

引发了学术界和工业界对大规模推理模型(large reasoning models ，LRM)研究的浓厚兴趣。鉴于前文对主流O1模型进行评测：实测主流O1模型，究竟谁才是地表最强王者？揭开三足鼎立局面！，结果显示开源的Marco-o1效果不错，甚至超越部分闭源产品。为此，今天这篇小作文将全面介绍Marco-o1的技术细节。

1. 简介

阿里国际数字化商业团队(非Qwen团队)提出Marco-o1，该模型不仅关注数学、物理和编程等具有标准答案的学科领域(这些领域非常适合强化学习)，还更加注重开放性解决方案。Marco-o1旨在解答一个问题:"o1模型能否有效地推广到那些缺乏明确标准且难以量化奖励的更广泛领域？"

Marco-o1采用思维链(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新的推理动作策略，专门针对复杂的现实问题求解任务进行了优化。Marco-o1主要贡献包括:

基于CoT数据的微调：通过对基础模型进行全参数微调，结合开源的CoT数据集和自主开发的合成数据，开发了Marco-o1-CoT模型。
MCTS扩展解空间：将大语言模型与MCTS整合，训练得到Marco-o1-MCTS。该模型使用模型输出置信度来指导搜索并扩展解空间。
推理动作策略：引入了新型推理动作策略与反思机制（Marco-o1-MCTS Mini-Step），包括在MCTS框架内探索不同动作粒度，并提示模型自我反思，从而显著提高了模型解决复杂问题的能力。
在翻译任务中的应用：首次将大推理模型（LRM）应用于机器翻译任务，探索了推理时间缩放定律在多语言和翻译领域的应用。

如图2所示，通过使用经过筛选的Open-O1 CoT数据集(OpenO1 Team在2024发布的)、Marco-o1 CoT数据集和Marco-o1指令数据集对Qwen2-7B-Instruct进行微调，Marco-o1提升了处理复杂任务的能力。MCTS利用top-k替代token的softmax对数概率得出的置信度分数，探索多个推理路径，引导模型找到最优解。此外，推理行动策略在步骤和微步骤中采用不同的行动粒度，以优化搜索效率和准确性。

图2：Marco-o1 概述

Github: https://github.com/AIDC-AI/Marco-o1

模型下载: https://huggingface.co/AIDC-AI/Marco-o1

论文地址: https://arxiv.org/abs/2411.14405

2. Marco推理数据集

为增强Marco-o1模型的推理能力，采用了监督微调(SFT)策略，使用多样化的数据集，如表1所示。

Open-O1 CoT数据集(经过筛选) ：通过启发式和质量筛选过程优化Open-O1项目的CoT数据集，使模型能够有效采用结构化推理模式。
Marco-o1 CoT数据集(合成)：使用MCTS生成Marco-o1 CoT数据集，有助于形成复杂的推理路径，增强模型的推理能力。
Marco指令数据集：在执行复杂任务中强大的指令遵循能力将起到关键作用，为此融入了一套指令遵循数据。这种整合确保模型能够应对广泛的任务，同时显著提升其推理能力。

表1：Marco推理数据集概览

3. 通过MCTS扩展解空间

以下略章节，请前往公众号文章：推理模型专题 | 开源类O1：Marco-o1技术全面解读

前置知识：蒙特卡罗树搜索（MCTS）

略

MCTS扩展解空间

略

4. 推理行动策略

4.1 行动选择

略

4.2 思考后的反思

略

5. 实验

略

6. 总结

受OpenAI推出的o1模型启发，阿里国际团队研发了Marco-o1模型，以提升大语言模型的推理能力。通过结合CoT微调、MCTS算法和推理行动策略，Marco-o1显著增强了处理复杂任务的能力。在MGSM数据集上的实验表明，其推理准确率提升明显，并在翻译任务中展现出对细微语义的深入理解。该研究的主要贡献包括：全参数微调模型、融合MCTS扩展解空间、优化推理行动策略，以及首次探索大模型在翻译任务中的推理规律。

官方表示后续计划通过结果奖励建模(ORM)和过程奖励建模(PRM)来完善MCTS的奖励信号，这将减少随机性并进一步提高性能。此外，正在探索强化学习技术来微调Marco-o1的决策过程，最终增强其处理复杂现实任务的能力。