思维链 Chain-of-Thought Prompting

server/2025/3/5 1:03:33/

论文Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)
 

  • 核心贡献: 首次提出通过显式的中间推理步骤(即思维链)提升大语言模型的复杂推理能力。该方法通过示例展示多步推理过程,引导模型生成逻辑连贯的答案,显著提高了数学应用题(如GSM8K数据集)、常识推理和符号操作任务的性能。

  • 技术特点: 将传统提示中的答案(answer)替换为推理步骤(rationale)+ 答案,从而分解复杂问题为可解释的中间步骤

通过显式生成中间推理步骤(即“思维链”),将复杂问题分解为多步可解释的逻辑过程,引导语言模型逐步解决问题。

  • 传统提示:输入-输出对(如问题直接映射到答案)。

  • 思维链提示:输入-推理链-输出三元组(如问题→分步计算→答案)

  • 自然语言推理:中间步骤以自然语言描述,而非符号逻辑或公式。

  • 任务普适性:适用于算术、常识、符号推理等多种任务。we

  • 零样本扩展:无需微调,仅需少量示例即可激发推理能力。
     

在算数推理中

思维链提示的效果随着模型规模的增加而增强

思维链提示在更复杂的问题上表现出更大的性能提升

思维链提示的鲁棒性

进行了消融研究,以探讨思维链提示中不同部分的作用

仅方程式提示的效果:即模型在给出答案之前仅被提示输出一个数学方程式。实验发现,仅方程式提示在GSM8K数据集上帮助不大,这表明GSM8K中的问题语义太复杂,无法直接翻译成方程式,而需要思维链中的自然语言推理步骤。

仅可变计算:“Variable compute only”(仅可变计算)是一种实验设计,旨在测试模型性能提升是否仅因中间生成的 token数量(计算量) 增加,而非自然语言推理步骤的逻辑性。

示例
  • 问题
    Roger有5个网球,又买了2罐,每罐3个。他现在共有多少球?

  • 标准提示(Standard Prompting)

    Q: Roger有5个网球,买了2罐,每罐3个。他现在有多少球?  
    A: 答案是11。  
  • Variable Compute Only 提示

    Q: Roger有5个网球,买了2罐,每罐3个。他现在有多少球?  
    A: ...........(共11个点,对应“5 + 2×3 = 11”的字符数)  
  • 结果

    • 论文中显示,这种变体的性能与标准提示接近(如GSM8K任务中,LaMDA 137B的准确率从6.5%提升至6.4%),说明 单纯增加中间token数量无法有效提升推理能力

答案后的思维链提示的效果: 即思维链提示仅在答案给出后才提供。实验发现,答案后的思维链提示与基线表现大致相同,这表明思维链中体现的顺序推理对于仅仅激活知识之外的原因是有用的。

思维链提示的鲁棒性

  • 对标注者的鲁棒性: 实验发现,即使是由不同标注者编写的思维链,思维链提示仍然能够显著提高性能。这表明思维链提示的成功并不依赖于特定的语言风格或标注者的偏好。
  • 对范例的鲁棒性: 实验发现,即使是从不同数据源随机抽取的范例,思维链提示仍然能够显著提高性能。这表明思维链提示的成功并不依赖于特定的范例集或数据源。
  • 对语言模型的鲁棒性: 实验发现,思维链提示在不同的语言模型上都能够显著提高性能。这表明思维链提示的成功并不依赖于特定的语言模型架构或参数量。


http://www.ppmy.cn/server/172473.html

相关文章

【QT网络问题】关于QT在调用天气等类似api接口时报错

报错内容 qt.network.ssl: QSslSocket::connectToHostEncrypted: TLS initialization failed Error: "TLS initialization failed"问题原因 Openssl库不匹配或者未安装,可以通过qdebug版本打印当前所需要的的openssl库,自己去官网下载 qDeb…

【零基础C语言】第四节 数组

【零基础C语言系列】 【零基础C语言】第一节 C语言概述【数制进制码制】-CSDN博客 【零基础C语言】第二节 数据类型、运算符、表达式-CSDN博客 【零基础C语言】第三节 控制结构-CSDN博客 一、一维数组

第 三十九:作用域插槽 v-solt 和 solt 对应的作用域

3. 作用域插槽 理解&#xff1a;数据在组件的自身&#xff0c;但根据数据生成的结构需要组件的使用者来决定。&#xff08;新闻数据在News组件中&#xff0c;但使用数据所遍历出来的结构由App组件决定&#xff09; 具体编码&#xff1a; 父组件中&#xff1a;<Game v-slot&…

Windows提权之第三方提权(九)

除了系统自带的服务外 &#xff0c;安装第三方的软件例如 mysql sqlserver ftp等应用软件&#xff0c;如果权限设置不对&#xff0c; 会对服务器造成安全隐患&#xff0c;从而导致服务器被提权。 一.sqlserver提权 1.描述 如果网站里面使用的数据库是sqlserver 那么如果找到s…

解决双系统开机显示gnu grub version 2.06 Minimal BASH Like Line Editing is Supported

找了好多教程都没有用&#xff0c;终于解决了&#xff01;&#xff01;我是因为ubuntu分区的时候出问题了 问题描述&#xff1a; 双系统装好&#xff0c;隔天开机找不到引导项&#xff0c;黑屏显示下列 因为我用的D盘划分出来的部分空闲空间&#xff0c;而不是全部&#xff0c…

【Linux】进程信号

进程信号 一.信号概念二.信号产生1.键盘2.指令3.系统调用1.kill2.raise3.abort 4.软件条件1.alarm 5.硬件异常1.除零2.野指针3.核心转储&#xff1a;core dump 三.信号保存1.信号状态&#xff1a;阻塞、未决、递达2.在内核中的表示3.信号集&#xff1a;sigset_t4.信号集操作的系…

网络安全架构三明治

第一章 网络安全 概述 网络三个关键要素&#xff1a; 节点&#xff1a;网络中的计算机节点之间的联系&#xff1a;联网计算机之间的链路节点之间交互的实体&#xff1a;通过网络传输的信息资源 计算机网络的网络属性 网络中的计算机及运行于计算机上的信息系统是安全的&…

集成开发环境GoLand安装配置结合内网穿透实现ssh远程访问服务器

???欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老…