CountDown中复现DeepSeek R1-Zero的效果

来自UC伯克利博士生潘家怡和另两位研究人员，在CountDown中复现了DeepSeek R1-Zero。

实验中，团队验证了通过强化学习，3B的基础语言模型也能够实现自我验证和搜索功能。整个验证的成本不到30美金（约217元）。

https://github.com/Jiayi-Pan/TinyZerohttps://github.com/Jiayi-Pan/TinyZero

Twitter：https://x.com/jiayi_pirate/status/1882839370505621655https://x.com/jiayi_pirate/status/1882839370505621655

这个项目叫做TinyZero，采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号，运行强化学习。

团队将其应用在CountDown中

《Countdown》最初是一款在英国Channel 4播出的电视游戏节目，自1982年开播以来一直深受观众喜爱。游戏以考验参赛者的词汇、数字和逻辑思维能力而闻名，其核心玩法包括字母游戏、数字游戏和谜题挑战。

字母游戏（Letters Game）

玩家需要从两堆字母牌中选择字母，一堆是元音字母，另一堆是辅音字母。最终选出的九个字母中，至少要有三个元音字母和四个辅音字母。

玩家有30秒的时间，用这些字母组成尽可能长的单词。单词必须是有效的英语单词，且每个字母的使用次数不能超过其出现的次数。

每个字母对应1分，如果用完所有九个字母则得18分。

数字游戏（Numbers Game）

玩家从24张数字牌中选择六张，这些数字牌分为20张“小数字”（1到10的数字各两张）和4张“大数字”（25、50、75和100）。

游戏生成一个三位数的目标数字，玩家需要在30秒内通过加、减、乘、除等基本运算，用所选的数字尽可能接近目标数字。

如果玩家的答案与目标数字完全一致，得10分；如果相差1到5，得7分；相差6到10，得5分。

谜题挑战（Conundrum）

这是游戏的最后一轮，玩家需要在30秒内解开一个由九个字母组成的单词谜题。

玩家需要通过拼写正确的单词来获得10分。如果答错或超时，对手将获得剩余时间来回答。