李飞飞团队 S1 技术思路:低成本实现高效推理模型
在人工智能领域,模型训练成本一直是制约技术普及和创新的重要因素。然而,李飞飞团队近日以不到 50 美元的云计算费用成功训练出了名为 S1 的 AI 推理模型,其在数学和编码能力测试中的表现与 OpenAI 的 o1 以及 DeepSeek 的 R1 等尖端推理模型相当,这一成果引发了行业的广泛关注。
基于开源模型的监督微调
S1 模型并非从零开始训练,而是基于阿里云的通义千问(Qwen)模型进行监督微调得到的。阿里云方面确认,S1 模型是以阿里通义千问 Qwen2.5-32B-Instruct 开源模型为底座,在 16 块 H100 GPU 上监督微调 26 分钟,就训练出了新模型 s1-32B。这种基于强大开源模型的微调方式,为 S1 模型提供了坚实的基础,使其能够在较短的时间和较低的成本内实现性能的提升。
精心筛选的小数据集
李飞飞团队构建了一个名为 s1K 的小型数据集,该数据集包含 1000 个经过精心筛选的问题,这些问题覆盖了数学、科学等多个领域,并配备了从谷歌推演出的推理过程和答案。通过在这个小型但高质量的数据集上进行微调,S1 模型能够学习到更精准的推理能力和答案生成方式,从而在测试中表现出色。
创新的 “预算强制” 方法
在训练过程中,团队采用了针对模型思考时间的 “预算强制” 方法,以此控制计算量。具体来说,模型每次只能在限定的思考时间内给出结果,这一策略不仅在确保了效率的同时,极大地提升了答案的准确性。通过这种方式,模型能够对答案进行更深度的理解和多次检查,从而纠正潜在的错误。
知识蒸馏技术的应用
S1 模型还巧妙融合了知识蒸馏技术。知识蒸馏是一种模型压缩手段,从庞大复杂的 “教师模型” 中提取出知识的精华,再悉心传授给小巧灵活的 “学生模型”。在 S1 的开发中,研究人员选择了谷歌的 Gemini 2.0 Flash Thinking Experimental 模型作为教师模型,通过蒸馏技术,S1 能够从教师模型中提取关键的推理能力,从而在保持高性能的同时显著降低训练成本。
性能表现与意义
通过上述技术手段,S1-32B 模型在竞赛数学问题(MATH 和 AIME24)上的表现比 o1-preview 高出 27%。这一成果不仅展示了在低成本下训练高性能 AI 模型的可能性,也推动了 AI 技术的普惠化。S1 模型的出现挑战了传统的 AI 研发模式,表明高昂的算力投入并非高性能 AI 的必要条件,算法创新正在打破资源垄断。