【LLM 论文】Self-Consistency — 一种在 LLM 中提升 CoT 表现的解码策略

news/2024/10/18 16:35:23/

论文:Self-Consistency Improves Chain of Thought Reasoning in Language Models
⭐⭐⭐⭐⭐
ICLR 2023, Google Research

文章目录

    • 论文速读

论文速读

本工作提出了一种解码策略:self-consistency,并可以用于 CoT prompting 中。

该策略提出的直观感觉是:人类在解决复杂问题时,往往会慎重考虑,并可能会尝试使用多种推理路径来解决从而保证得到的答案的正确性。self-consistency 就是基于这种思想,让 LLM 在解决复杂推理问题时,让他尝试多个推理路径,每个推理路径就是一次 CoT 的解决过程,每个可以得到一个答案,最终的答案就是其中出现次数最多的答案

self-consistency 用李宏毅老师的 PPT 来解释的话,也就是如下的方式:

self-consistency

普通的 CoT 与使用了 self-consistency 解码策略的对比如下:

CoT对比self-consistency

self-consistency 的解码过程主要就是“sample-and-marginalize”:

  1. 让 LLM 的 decoder 去产生多个推理路径,每个推理路径会导致一个 final answer(区别于普通 CoT 的 greedy decode)
  2. marginalize out 这些推理路径,在 final answer set 中找出 the most consistent answer

同时论文指出,有时候 CoT 的使用让 LLM 的表现可能还不如标准的 prompt,这时候引入 Self-consistency 可以提升 CoT 的表现。如下是实验证明:

在这里插入图片描述
self-consistency 可以与目前的采样算法兼容,比如 temperature sampling、top-k sampling、nucleus sampling

有些工作是额外训练一个 verifier 来验证答案的正确性,self-consistency 的优点在于:

  • 更加简单,self-consistency 是完全无监督的
  • 只使用了一个 language model,而其他方法会集成多个 model

并且最终的表现比 sample-and-rank、beam search、ensemble-based 等方法要表现更好。


http://www.ppmy.cn/news/1426490.html

相关文章

OpenHarmony实例应用:【常用组件和容器低代码】

介绍 本篇Codelab是基于ArkTS语言的低代码开发方式实现的一个简单实例。具体实现功能如下: 创建一个低代码工程。通过拖拽的方式实现任务列表和任务信息界面的界面布局。在UI编辑界面实现数据动态渲染和事件的绑定。 最终实现效果如下: 相关概念 低代…

OpenHarmony 视图加载——ImageViewZoom

简介 ImageViewZoom 支持加载 Resource 或 PixelMap 图片,支持设置图像显示类型功能,支持缩放功能,支持平移功能,双击放大功能,可以监听图片大小,资源变化事件,支持清除显示图片功能。 效果展示…

问卷回收率太低?用这几个小技巧轻松提升!

在进行调查研究时,高回收率是保障数据质量和调研成果有效性的关键因素之一。然而,有时候我们面对的情况是调查问卷的回收率较低,这可能会影响到数据的客观性和准确性。在这种情况下,我们需要采取措施来提高调查问卷的回收率&#…

通过PyCharm平台开发Django应用程序

学会使用命令行工具开发Django应用程序是基础,不过更多的时候还是要借助平台开发工具。目前,最好的Django应用程序开发工具就是jetBrains公司推出的PyCharm平台了。 借助PyCharm开发平台,可以极大提高开发Django应用程序的效率,同…

如何防止服务器被攻击

如何防止服务器被攻击 第1步:切断网络; 服务器的攻击来源都必须通过互联网,一旦切断网络,它们就失去了攻击的入口,你可以通过切断网络的方式,以最快的速度切断攻击源,保护服务器所在网络的其他主机服务器。…

JD抓包 | 安卓app抓包

去年11月份左右搞过一次安卓抓包, 搞了很久试了很多方法, 才弄好. 时隔半年, 安卓抓包依然是令我头疼的问题 这次简单记录一下过程(细节太多我也说不清) JD的有效信息接口通常是以下这样的, 其他的接口并没有返回太多"有用"的信息 https://api.m.jd.com/client.act…

新手必看!嵌入式STM32-PID

本文目录 一、知识点1. 位置式pid(1)公式(2)代码 2. 串级PID简易代码 一、知识点 1. 位置式pid (1)公式 (2)代码 pid.c typedef struct PID {float Kp; // Proportion…

搜维尔科技:【工业仿真】煤矿安全知识基础学习VR系统

产品概述 煤矿安全知识基础学习VR系统 系统内容: 煤矿安全知识基础学习VR系统内容包括:下井流程(正确乘坐罐笼、班前会、井下行走注意事项、工作服穿戴、入井检身及人员清点、下井前准备工作、提升运输安全);运煤流程…