UNC、谷歌:通过逆向思维增强LLM

ops/2024/12/17 5:48:58/

在这里插入图片描述

📖标题:Reverse Thinking Makes LLMs Stronger Reasoners
🌐来源:arXiv, 2411.19865

🌟摘要

🔸逆向思维在人类推理中起着至关重要的作用。人类不仅可以从一个问题推理到一个解决方案,还可以反向推理,即从解决方案开始,向问题推理。这通常会提高整体推理性能,因为它可以在他们的正向和反向思维之间进行一致性检查。
🔸为了使大型语言模型(LLM)能够执行逆向思维,我们引入了逆向增强思维(REVTHINK),这是一个由数据增强和学习目标组成的框架。在REVTHINK中,我们通过从教师模型中收集结构化的前后推理来增强数据集,该模型由以下部分组成:(1)原始问题,(2)前向推理,(3)后向问题,以及(4)后向推理。然后,我们采用三个目标以多任务学习的方式训练一个较小的学生模型:(a)从问题中生成正向推理,(b)从问题生成反向问题,以及(c)从反向问题生成反向推理。
🔸在涵盖常识、数学和逻辑推理的12个数据集上进行的实验显示,与学生模型的零样本性能相比,平均提高了13.53%,与最强的知识提取基线相比,平均改善了6.84%。此外,我们的方法证明了样本效率——仅使用训练数据中10%的正确正向推理,其性能优于在10倍以上正向推理上训练的标准微调方法。REVTHINK对分布外的数据集也表现出很强的泛化能力。

🛎️文章简介

🔸研究问题:如何通过逆向思维(reverse thinking)来增强大型语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了逆向增强思维(REVTHINK)框架,通过数据增强和学习目标的设计,使LLM能够在训练过程中内化逆向推理能力。

🧲相关工作

🔸LLM推理:代表性方法包括思维链(CoT)、自我一致性、思维树、自我反思和多代理协作等。
🔸知识蒸馏:将知识从较大的教师模型转移到较小的学生模型,经典方法从教师模型的分布中学习,目标是最小化教师的学生分布。
🔸对偶学习:利用任务固有的原始对偶结构,如双语翻译之间的双向关系。

📝重点思路

🔺主要思想
🔸问题设置:定义了一个包含问题和答案的数据集,并假设可以访问一个教师模型,目标是训练一个较小的学生模型并增强其推理能力。
🔸实现流程:让教师模型生成正向推理、逆向问题和逆向推理的增强数据,训练学生模型的相关能力。

🔺数据增强
🔸生成正向推理:教师模型基于原始问题,生成正向推理,并保留那些推理结果与正确答案一致的数据。
🔸生成逆向问题:教师模型基于原始问题和正确答案,生成逆向问题,如2+3=?→5-3=?
🔸生成逆向推理:教师模型生成逆向推理,并验证其与原始问题的逻辑一致性。

🔎分析总结

🔸REVTHINK在12个不同数据集上的广泛任务中表现出色,平均性能优于所有基线方法。
🔸学习所有组件(正向推理、逆向问题和逆向推理)能够带来最佳性能。
🔸仅学习逆向问题会损害性能,而学习生成逆向问题可以提高学生模型。
🔸REVTHINK在低资源环境下表现出色,使用10%的训练实例就能超越使用完整训练集的SKD方法。
🔸REVTHINK随着模型大小的增加,性能有明显的提升趋势。
🔸REVTHINK在未见过的数据集上表现出良好的泛化能力,并能与现有的数据增强技术互补。

💡个人观点

论文的核心是在原有的推理数据上,根据答案反向构建问题,有些类似指令生成的回译思想。

🧩附录

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/ops/142565.html

相关文章

电工电子技术实验:电压比较器及其应用电路

实验目的 1.了解电压比较器与运算放大器的性能区别; 2.掌握电压比较器的结构及特点; 3.掌握电压比较器电压传输特性的测试方法; 4.学习比较器在电路设计中的应用 实验原理 电压比较器是一…

如何不重启修改K8S containerd容器的内存限制(Cgroup方法)

1. 使用crictl 查看容器ID crictl ps2. 查看Cgroup位置 crictl inspect 容器ID3. 到容器Cgroup的目录下 使用上个命令就能找到CgroupPath 4 . 到cgroup目录下 正确目录是 : /sys/fs/cgroup/memory/kubepods.slice/kubepods-burstable.slice/kubepods-burstable-podf68e18…

scala泛型的特质:Trait

泛型特质指的是把泛型定义到特质的声明上, 即:该特质中的成员的参数类型是由泛型来决定的. 在定义泛型特质的子类或者子单例对象时, 明确具体的数据类型. 定义格式: 1)trait 类名[T] 2)trait 类名[S,T...] 演示代码如下: object demo18_3 {trait Logger[x]{val…

解释 Git 的基本概念和使用方式

Git是一种分布式版本控制系统,它可以追踪文件和文件夹的修改历史,并允许多人协同工作。Git的基本概念包括仓库(repository)、分支(branch)、提交(commit)和合并(merge&am…

39 基于单片机的角度、水位、温度、辅助热源、电机仿真

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于51单片机 采用滑动变阻器连接ADC0832数模转换器模拟角度传感器,水位传感器; 采样DS18B20温度传感器检测温度 通过LCD1602显示,第一行显示温度、水位、角度…

seata AT模式 笔记2

本文属于b站 图灵课堂springcloud笔记系列。讲的好还不要钱,值得推荐。 上一篇快速体验了下seata AT模式解决分布式事务: 分布式事务seata(AT)与nacos整合-笔记2-CSDN博客 AT模式原理部分: 官网:Seata AT 模式 | Apache Seata…

【ChatGPT】解锁AI思维链:如何让机器像人类一样思考?

在人工智能领域,我们一直在追求让机器像人类一样思考。然而,即使是最先进的AI,也常常被诟病缺乏“常识”,难以理解复杂问题,更不用说像人类一样进行逻辑推理和解决问题了。最经常的表现就是遇到不会的地方,…

【AI知识】过拟合、欠拟合和正则化

一句话总结: 过拟合和欠拟合是机器学习中的两个相对的概念,正则化是用于解决过拟合的方法。 1. 欠拟合: 指模型在训练数据上表现不佳,不能充分捕捉数据的潜在规律,导致在训练集和测试集上的误差都很高。欠拟合意味着模…