李飞飞团队 S1 技术思路：低成本实现高效推理模型

news/2025/2/10 14:43:58/

李飞飞团队 S1 技术思路：低成本实现高效推理模型

在人工智能领域，模型训练成本一直是制约技术普及和创新的重要因素。然而，李飞飞团队近日以不到 50 美元的云计算费用成功训练出了名为 S1 的 AI 推理模型，其在数学和编码能力测试中的表现与 OpenAI 的 o1 以及 DeepSeek 的 R1 等尖端推理模型相当，这一成果引发了行业的广泛关注。

基于开源模型的监督微调

S1 模型并非从零开始训练，而是基于阿里云的通义千问（Qwen）模型进行监督微调得到的。阿里云方面确认，S1 模型是以阿里通义千问 Qwen2.5-32B-Instruct 开源模型为底座，在 16 块 H100 GPU 上监督微调 26 分钟，就训练出了新模型 s1-32B。这种基于强大开源模型的微调方式，为 S1 模型提供了坚实的基础，使其能够在较短的时间和较低的成本内实现性能的提升。

精心筛选的小数据集

李飞飞团队构建了一个名为 s1K 的小型数据集，该数据集包含 1000 个经过精心筛选的问题，这些问题覆盖了数学、科学等多个领域，并配备了从谷歌推演出的推理过程和答案。通过在这个小型但高质量的数据集上进行微调，S1 模型能够学习到更精准的推理能力和答案生成方式，从而在测试中表现出色。

创新的 “预算强制” 方法

在训练过程中，团队采用了针对模型思考时间的 “预算强制” 方法，以此控制计算量。具体来说，模型每次只能在限定的思考时间内给出结果，这一策略不仅在确保了效率的同时，极大地提升了答案的准确性。通过这种方式，模型能够对答案进行更深度的理解和多次检查，从而纠正潜在的错误。

知识蒸馏技术的应用

S1 模型还巧妙融合了知识蒸馏技术。知识蒸馏是一种模型压缩手段，从庞大复杂的 “教师模型” 中提取出知识的精华，再悉心传授给小巧灵活的 “学生模型”。在 S1 的开发中，研究人员选择了谷歌的 Gemini 2.0 Flash Thinking Experimental 模型作为教师模型，通过蒸馏技术，S1 能够从教师模型中提取关键的推理能力，从而在保持高性能的同时显著降低训练成本。

性能表现与意义

通过上述技术手段，S1-32B 模型在竞赛数学问题（MATH 和 AIME24）上的表现比 o1-preview 高出 27%。这一成果不仅展示了在低成本下训练高性能 AI 模型的可能性，也推动了 AI 技术的普惠化。S1 模型的出现挑战了传统的 AI 研发模式，表明高昂的算力投入并非高性能 AI 的必要条件，算法创新正在打破资源垄断。