来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown中复现了DeepSeek R1-Zero。
实验中,团队验证了通过强化学习,3B的基础语言模型也能够实现自我验证和搜索功能。整个验证的成本不到30美金(约217元)。
https://github.com/Jiayi-Pan/TinyZerohttps://github.com/Jiayi-Pan/TinyZero
Twitter:https://x.com/jiayi_pirate/status/1882839370505621655https://x.com/jiayi_pirate/status/1882839370505621655
这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。
团队将其应用在CountDown中
《Countdown》最初是一款在英国Channel 4播出的电视游戏节目,自1982年开播以来一直深受观众喜爱。游戏以考验参赛者的词汇、数字和逻辑思维能力而闻名,其核心玩法包括字母游戏、数字游戏和谜题挑战。
字母游戏(Letters Game)
玩家需要从两堆字母牌中选择字母,一堆是元音字母,另一堆是辅音字母。最终选出的九个字母中,至少要有三个元音字母和四个辅音字母。
玩家有30秒的时间,用这些字母组成尽可能长的单词。单词必须是有效的英语单词,且每个字母的使用次数不能超过其出现的次数。
每个字母对应1分,如果用完所有九个字母则得18分。
数字游戏(Numbers Game)
玩家从24张数字牌中选择六张,这些数字牌分为20张“小数字”(1到10的数字各两张)和4张“大数字”(25、50、75和100)。
游戏生成一个三位数的目标数字,玩家需要在30秒内通过加、减、乘、除等基本运算,用所选的数字尽可能接近目标数字。
如果玩家的答案与目标数字完全一致,得10分;如果相差1到5,得7分;相差6到10,得5分。
谜题挑战(Conundrum)
这是游戏的最后一轮,玩家需要在30秒内解开一个由九个字母组成的单词谜题。
玩家需要通过拼写正确的单词来获得10分。如果答错或超时,对手将获得剩余时间来回答。
模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。
示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。
在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B等参数规模)。
结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。
他们还验证了,额外的指令微调(SFT)并非是必要的,这也印证了R1-Zero的设计决策。这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究。
基础模型或指令模型都可以工作 - 指令模型学习速度更快,但收敛到与基本模型相同的性能 - 指令模型的输出更加结构化和可读性,因此,不需要额外的指令调优,这符合R1-Zero的设计决策
实验表明,模型在推理行为中非常依赖于具体的任务:
-
对于Countdow任务,模型学习进行搜索和自我验证
-
对于数字乘法任务,模型反而学习使用分布规则分解问题并逐步解决它。
其中,3B模型表现出一种较明显的现象,3B模型最初为实现correct formatting减少了输出长度,但之后增加了思想链长度以获得更好的性能。