CountDown中复现DeepSeek R1-Zero的效果

devtools/2025/2/13 10:45:22/

来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown中复现了DeepSeek R1-Zero。

实验中,团队验证了通过强化学习,3B的基础语言模型也能够实现自我验证和搜索功能。整个验证的成本不到30美金(约217元)。 

https://github.com/Jiayi-Pan/TinyZerohttps://github.com/Jiayi-Pan/TinyZero

Twitter:https://x.com/jiayi_pirate/status/1882839370505621655https://x.com/jiayi_pirate/status/1882839370505621655

这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。

团队将其应用在CountDown

《Countdown》最初是一款在英国Channel 4播出的电视游戏节目,自1982年开播以来一直深受观众喜爱。游戏以考验参赛者的词汇、数字和逻辑思维能力而闻名,其核心玩法包括字母游戏、数字游戏和谜题挑战。

  • 字母游戏(Letters Game)

    • 玩家需要从两堆字母牌中选择字母,一堆是元音字母,另一堆是辅音字母。最终选出的九个字母中,至少要有三个元音字母和四个辅音字母。

    • 玩家有30秒的时间,用这些字母组成尽可能长的单词。单词必须是有效的英语单词,且每个字母的使用次数不能超过其出现的次数。

    • 每个字母对应1分,如果用完所有九个字母则得18分。

  • 数字游戏(Numbers Game)

    • 玩家从24张数字牌中选择六张,这些数字牌分为20张“小数字”(1到10的数字各两张)和4张“大数字”(25、50、75和100)。

    • 游戏生成一个三位数的目标数字,玩家需要在30秒内通过加、减、乘、除等基本运算,用所选的数字尽可能接近目标数字。

    • 如果玩家的答案与目标数字完全一致,得10分;如果相差1到5,得7分;相差6到10,得5分。

  • 谜题挑战(Conundrum)

    • 这是游戏的最后一轮,玩家需要在30秒内解开一个由九个字母组成的单词谜题。

    • 玩家需要通过拼写正确的单词来获得10分。如果答错或超时,对手将获得剩余时间来回答。

模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。

示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。

在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B等参数规模)。

结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。

 他们还验证了,额外的指令微调(SFT)并非是必要的,这也印证了R1-Zero的设计决策。这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究。

基础模型或指令模型都可以工作 - 指令模型学习速度更快,但收敛到与基本模型相同的性能 - 指令模型的输出更加结构化和可读性,因此,不需要额外的指令调优,这符合R1-Zero的设计决策

实验表明,模型在推理行为中非常依赖于具体的任务:

  • 对于Countdow任务,模型学习进行搜索和自我验证

  • 对于数字乘法任务,模型反而学习使用分布规则分解问题并逐步解决它。

其中,3B模型表现出一种较明显的现象,3B模型最初为实现correct formatting减少了输出长度,但之后增加了思想链长度以获得更好的性能。


http://www.ppmy.cn/devtools/158458.html

相关文章

【Linux】Ubuntu Linux 系统 ——PHP开发环境

ℹ️大家好,我是练小杰,元宵节到了,在此祝大家元宵节快乐😆 新的一年里,愿你步步高升,事事如意,心想事成!! 本文是关于Linux 操作系统中部署PHP开发环境这部分基础内容,后…

持续集成-笔记

目录 持续集成Gitee介绍与安装git简介与安装giteegit和gitee的工作原理 pycharm集成Giteepycharm安装gitee插件pycharm使用Gitee插件 Jenkinsjenkins介绍与安装postman集成Jenkins代码集成jenkins 持续集成 概念:团队成员将自己的工作成果,持续集成到一…

Eclipse 插件开发相关概念

整理了Eclipse插件开发的概念,用于熟悉入门 SWT(Standard Widget Toolkit)标准图形工具箱 Java开发的GUI程序技术,由Eclipse开发,相比AWT、Swing更美观;对于目标平台上已经有的控件,SWT会直接使…

excel 日期转换

需求如下: 在excel 里面输入一个4515,4表示年份,2024年,51表示该年的51周,5表示日,周日用1表示,周一用2表示,以此类推,需要转换为年份/月份/日期 若想用公式来实现这一转换&#x…

Python自动化办公之Excel拆分

在日常办公中,我们经常需要将包含多个Sheet页的Excel文件拆分成多个独立的Excel文件。例如,当我们要把一份Excel表格发给各部门确认时,出于控制信息知悉范围、确保数据保密性等方面的考虑,每个部门仅需查看和确认与自己部门对应的…

GO语言基础知识

一、引言 在当今快速发展的软件开发领域,Go语言(又称Golang)凭借其简洁的语法、强大的并发支持和高效的性能,逐渐成为许多开发者的首选编程语言之一。Go语言由Google团队开发,自2009年发布以来,已经在云原…

陶瓷膜分离技术在石油化工废水处理中的优势与应用

在当今的石油化工行业中,废水处理不仅是环保合规的必然要求,也是实现资源高效利用和可持续发展的关键环节。陶瓷膜分离技术,作为一项水处理技术,因其独特的性能优势,在处理石油化工废水方面展现出非常大的应用潜力和价…

4.Excel:李东阳-电器企业-本年度的生产与营销计划❗(18)

目录 NO1​ NO2​ NO3.4​ NO5VLOOKUP​ NO6VLOOKUP和MATCH​ NO7条件格式weekday​ NO8数据透视表​ NO9高级筛选​ 快速来到表格底部 NO1 NO2 导入txt文本格式的文件: 选中B3单元格→数据→获取外部数据对话框→现有链接→浏览更多:考生文件…