rStar论文精读

server/2025/3/14 9:18:53/

论文简介

论文标题:《Mutual reasoning makes smaller LLMs stronger problem-solvers》
论文地址:https://arxiv.org/abs/2408.06195
录用会议:ICLR2025

背景与挑战

挑战1:在SLM中平衡exploration与exploitation。一些方法有很大的exploitation但限制任务多样性泛化性不好;一些方法有很大的exploration但产生很多较差的结果,需要很多次尝试才能获得理想结果,消耗推理资源大。

方法

在这里插入图片描述
为了解决挑战1,设置了5个模拟人类的推理动作以进行彻底的探索;为了解决挑战2,使用了针对SLM设计奖励函数去评估中间步骤,而不是使用不可靠的自我评估。此外,使用另一个SLM作为鉴别器来增强MCTS过程,与生成器SLM相互验证每个轨迹的正确性。

在这里插入图片描述

动作空间

MCTS生成的核心是动作空间,它定义了树探索的范围。大多数基于MCTS的方法使用单一的动作类型来构建树。例如,在RAP中,动作是提出下一个子问题,而在AlphaMath(Chen et al., 2024a)和MindStar(Kang et al., 2024)中,动作是生成下一个推理步骤。然而,依靠单一的动作类型很容易导致空间探索无效。因此为了解决以上问题,使用了人类思考的方法进行推理.

  • A1: Propose an one-step thought.
  • A2: Propose the remaining thought steps.
  • A3: Propose next sub-question along with its answer.
  • A4: Answer the sub-question again.
  • A5: Rephrase the question/sub-question.

蒙特卡洛模拟

蒙特卡洛搜索过程参考了Alpha Go的推理过程。
在某个Node处,有5个Action可供选择,Q都被初始化为0。
每次进行rollout时都根据UCT的值进行选择节点。在这里插入图片描述
这样,收集了一些较为随机的rollout

奖励函数

没用使用特定的奖励函数模型,而是使用了模拟打分的方式作为奖励函数。引入了另一个SLM’,屏蔽后i步,通过前i-1步直接推理到结尾。比较SLM’完成的答案是否与原始轨迹t匹配。如果它们一致,将t视为最终选择的有效轨迹。

考虑学生在没有老师反馈的情况下解决问题。一个对自己的解不确定的学生(SLM1)可能会请同伴(SLM2)审查他们的推理过程。如果同伴在给定相同的初始步骤后得到相同的答案,学生就会对自己的解更有信心。这种同伴验证过程反映了我们旨在实现的互推理一致性。 由SLM1进行最终轨迹选择。

轨迹获得的奖励 = rollout过程中给出的奖励 * SLM2给出的答案奖励

我们通过将每个轨迹的奖励乘以从 rollout 中获得的终端节点的置信度得分来计算每个轨迹的最终得分。最终得分最高的轨迹被选为解。


http://www.ppmy.cn/server/174839.html

相关文章

Chrome 扩展开发 API实战:Extension(五)

Chrome.bookmarks API 技术文档 1. 引言 在开发 Chrome 扩展程序时,书签的管理是一项常见需求。chrome.bookmarks API 提供了一套强大的接口,允许开发者创建、查询、更新、移动和删除书签。本文将详细介绍如何使用该 API 来操作浏览器中的书签。 2. 权…

结构型模式---享元模式

概念 享元模式是一种结构型设计模式,他摒弃了在每个对象中保存所有数据的方式,通过共享多个对象所共有的相同状态,让你能在有限的内存容量中载入更多对象。享元模式将原始类中的数据分为内在状态数据和外在状态数据。 内在状态:就…

《灵珠觉醒:从零到算法金仙的C++修炼》卷三·天劫试炼(42)九龙神火罩拓扑 - 课程表排序(拓扑排序)

《灵珠觉醒:从零到算法金仙的C++修炼》卷三天劫试炼(42)九龙神火罩拓扑 - 课程表排序(拓扑排序) 哪吒在数据修仙界中继续他的修炼之旅。这一次,他来到了一片神秘的九龙神火罩大阵,阵中有一座巨大的九龙神火罩,罩身闪烁着神秘的光芒。大阵入口处有一块巨大的石碑,上面…

MySQL 8 设置允许远程连接(Windows环境)

🌟 MySQL 8 设置允许远程连接(Windows环境) 在开发和部署应用时,经常需要从远程主机连接到MySQL数据库。默认情况下,MySQL仅允许本地连接,因此需要进行一些配置才能允许远程访问。今天,我将详细…

机器学习中常用的避免过拟合的方法有哪些

在机器学习和深度学习中,避免过拟合是提高模型泛化能力的关键。以下是一些常用的避免过拟合的方法: 1. ​增加数据量 ​原理:更多的数据可以帮助模型学习到数据的本质规律,而不是噪声。​方法: 收集更多的真实数据。使…

easy-poi导出and导入一对多数据excel

easy-poi导出and导入一对多数据excel 一、导入jar包 <!-- easy-poi --><dependency><groupId>cn.afterturn</groupId><artifactId>easypoi-spring-boot-starter</artifactId><version>4.4.0</version></dependency> 二…

LINUX 指令大全

Linux服务器上有许多常用的命令&#xff0c;可以帮助你管理文件、目录、进程、网络和系统配置等。以下是一些常用的Linux命令&#xff1a; 文件和目录管理 ls&#xff1a;列出当前目录中的文件和子目录 bash lspwd&#xff1a;显示当前工作目录的路径 bash pwdcd&#xff1a;切…

【 Fail2ban 使用教程】

Fail2ban 使用教程 1. 安装 Fail2ban2. 配置 Fail2ban2.1 创建 jail.local 文件2.2 基本配置参数说明2.3 配置具体服务的监控规则2.3.1 SSH 服务2.3.2 Apache 服务 3. 启动和管理 Fail2ban3.1 启动 Fail2ban 服务3.2 设置 Fail2ban 开机自启3.3 检查 Fail2ban 服务状态3.4 重新…