📖标题:Reverse Thinking Makes LLMs Stronger Reasoners
🌐来源:arXiv, 2411.19865
🌟摘要
🔸逆向思维在人类推理中起着至关重要的作用。人类不仅可以从一个问题推理到一个解决方案,还可以反向推理,即从解决方案开始,向问题推理。这通常会提高整体推理性能,因为它可以在他们的正向和反向思维之间进行一致性检查。
🔸为了使大型语言模型(LLM)能够执行逆向思维,我们引入了逆向增强思维(REVTHINK),这是一个由数据增强和学习目标组成的框架。在REVTHINK中,我们通过从教师模型中收集结构化的前后推理来增强数据集,该模型由以下部分组成:(1)原始问题,(2)前向推理,(3)后向问题,以及(4)后向推理。然后,我们采用三个目标以多任务学习的方式训练一个较小的学生模型:(a)从问题中生成正向推理,(b)从问题生成反向问题,以及(c)从反向问题生成反向推理。
🔸在涵盖常识、数学和逻辑推理的12个数据集上进行的实验显示,与学生模型的零样本性能相比,平均提高了13.53%,与最强的知识提取基线相比,平均改善了6.84%。此外,我们的方法证明了样本效率——仅使用训练数据中10%的正确正向推理,其性能优于在10倍以上正向推理上训练的标准微调方法。REVTHINK对分布外的数据集也表现出很强的泛化能力。
🛎️文章简介
🔸研究问题:如何通过逆向思维(reverse thinking)来增强大型语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了逆向增强思维(REVTHINK)框架,通过数据增强和学习目标的设计,使LLM能够在训练过程中内化逆向推理能力。
🧲相关工作
🔸LLM推理:代表性方法包括思维链(CoT)、自我一致性、思维树、自我反思和多代理协作等。
🔸知识蒸馏:将知识从较大的教师模型转移到较小的学生模型,经典方法从教师模型的分布中学习,目标是最小化教师的学生分布。
🔸对偶学习:利用任务固有的原始对偶结构,如双语翻译之间的双向关系。
📝重点思路
🔺主要思想
🔸问题设置:定义了一个包含问题和答案的数据集,并假设可以访问一个教师模型,目标是训练一个较小的学生模型并增强其推理能力。
🔸实现流程:让教师模型生成正向推理、逆向问题和逆向推理的增强数据,训练学生模型的相关能力。
🔺数据增强
🔸生成正向推理:教师模型基于原始问题,生成正向推理,并保留那些推理结果与正确答案一致的数据。
🔸生成逆向问题:教师模型基于原始问题和正确答案,生成逆向问题,如2+3=?→5-3=?
🔸生成逆向推理:教师模型生成逆向推理,并验证其与原始问题的逻辑一致性。
🔎分析总结
🔸REVTHINK在12个不同数据集上的广泛任务中表现出色,平均性能优于所有基线方法。
🔸学习所有组件(正向推理、逆向问题和逆向推理)能够带来最佳性能。
🔸仅学习逆向问题会损害性能,而学习生成逆向问题可以提高学生模型。
🔸REVTHINK在低资源环境下表现出色,使用10%的训练实例就能超越使用完整训练集的SKD方法。
🔸REVTHINK随着模型大小的增加,性能有明显的提升趋势。
🔸REVTHINK在未见过的数据集上表现出良好的泛化能力,并能与现有的数据增强技术互补。
💡个人观点
论文的核心是在原有的推理数据上,根据答案反向构建问题,有些类似指令生成的回译思想。
🧩附录