rStar论文精读

server/2025/3/14 9:18:53/

论文简介

论文标题：《Mutual reasoning makes smaller LLMs stronger problem-solvers》
论文地址：https://arxiv.org/abs/2408.06195
录用会议：ICLR2025

背景与挑战

挑战1：在SLM中平衡exploration与exploitation。一些方法有很大的exploitation但限制任务多样性泛化性不好；一些方法有很大的exploration但产生很多较差的结果，需要很多次尝试才能获得理想结果，消耗推理资源大。

方法

在这里插入图片描述
为了解决挑战1，设置了5个模拟人类的推理动作以进行彻底的探索；为了解决挑战2，使用了针对SLM设计奖励函数去评估中间步骤，而不是使用不可靠的自我评估。此外，使用另一个SLM作为鉴别器来增强MCTS过程，与生成器SLM相互验证每个轨迹的正确性。

在这里插入图片描述

动作空间

MCTS生成的核心是动作空间，它定义了树探索的范围。大多数基于MCTS的方法使用单一的动作类型来构建树。例如，在RAP中，动作是提出下一个子问题，而在AlphaMath（Chen et al., 2024a）和MindStar（Kang et al., 2024）中，动作是生成下一个推理步骤。然而，依靠单一的动作类型很容易导致空间探索无效。因此为了解决以上问题，使用了人类思考的方法进行推理.

A1: Propose an one-step thought.
A2: Propose the remaining thought steps.
A3: Propose next sub-question along with its answer.
A4: Answer the sub-question again.
A5: Rephrase the question/sub-question.