论文 | Measuring and Narrowing the Compositionality Gap in Language Models

news/2024/9/24 10:15:42/

存在的问题:

        关于一个复杂的多跳问题,大语言模型可以正确回答基于该问题分解的多个子问题,但是对于这个问题的最终答案大语言模型可能最终还是给不出来正确的。该论文根据这个现象提出了一个术语,叫“组合性差距”。

解决的方法:

        提出一种叫“self-ask”的方法,该方法是一种基于提示工程的更高级的技术,它通过引导模型进行自我反思和问题分解,从而更好地理解问题和生成答案。

自问通过以下步骤实现:

1. 问题分解

  • 模型首先分析初始问题,并确定是否需要分解为更简单的子问题。
  • 如果需要,模型会生成一个后续问题,并将其作为子问题提交给模型自身或搜索引擎。

2. 子问题回答

  • 模型回答生成的子问题,并返回答案。
  • 如果子问题无法通过模型自身或搜索引擎得到答案,则可以继续生成更简单的子问题,直到得到答案为止。

3. 最终答案生成

  • 模型根据子问题的答案,结合自身知识,生成最终答案。

自问方法的优势:

  • 明确的结构: 自问方法通过“后续问题”和“中间答案”等提示词,清晰地标记了问题分解和答案生成的过程,使得模型更容易理解和使用。
  • 可扩展性: 自问方法可以轻松地与外部知识库(如搜索引擎)结合,进一步提升模型回答组合问题的能力。
  • 提高准确率: 自问方法可以帮助模型更好地理解问题,并避免因错误组合事实而导致的错误答案。

 自问方法的局限性:

  • 依赖模型能力: 自问方法的有效性依赖于模型自身的能力,如果模型无法理解问题或生成合适的子问题,则该方法可能无法发挥作用。
  • 计算成本: 自问方法可能需要模型进行多次推理,从而增加计算成本。

评估指标(间接评估了子问题在模型组合推理中的作用):

1. 组合推理差距

  • 论文主要关注“组合推理差距”,即模型正确回答所有子问题但无法得出最终答案的比例。
  • 组合推理差距的大小可以反映模型进行组合推理的能力。
  • 研究发现,随着模型规模的增加,组合推理差距并没有显著下降,这表明模型在组合事实方面存在局限性。

2. 子问题正确率

  • 论文统计了模型回答子问题的正确率,并发现模型在大多数子问题上的正确率较高。
  • 这表明模型能够理解和回答子问题,但在将子问题答案组合成最终答案方面存在困难。

3. 模型对子问题的置信度

  • 论文分析了模型对子问题答案的置信度,发现模型对子问题答案的置信度越高,回答组合问题的正确率也越高。
  • 这表明模型在进行组合推理时,需要对其自身知识有较高的置信度。

4. 自问方法的性能提升

  • 论文比较了自问方法和其他方法的性能,发现自问方法能够显著提高模型回答组合问题的准确率。
  • 这表明自问方法能够帮助模型更好地理解问题和生成答案,从而缩小组合推理差距。

http://www.ppmy.cn/news/1474187.html

相关文章

【前端从入门到精通:第二课:HTML头部标签常用标签】

走进HTML世界 HTML简介 可参考百度百科 学习变成到底难不难? A. 1 * 5 ? B. 111 * 555 ? A 到 B的过程, 差距就在于动手,不动手你就学不会。 如何创建HTML文件 ​鼠标右键->新建文本文件->更改后缀名.html 创建文件所需要注…

PostgreSQL数据库常用函数用法介绍

本文将介绍一些PostgreSQL中常用的函数,包括其用途、参数说明、使用示例、测试用例,以及一些复杂函数的使用。 1. length() 用途 计算字符串的长度。 参数说明 text:需要计算长度的字符串。 使用示例 SELECT length(PostgreSQL);输出&…

《框架封装 · Redis 事件监听》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久,希望大家多多支持,后续会继续提升文章质量,绝不滥竽充数…

adobe pdf设置默认打开是滚动而不是单页视图

上班公司用adobe pdf,自己还不能安装其它软件。 每次打开pdf,总是默认单页视图,修改滚动后,下次打开又 一样,有时候比较烦。 后面打开编辑->首选项, 如下修改,下次打开就是默认滚动了

硬件开发笔记(二十四):贴片电容的类别、封装介绍,AD21导入贴片电容、原理图和封装库3D模型

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140241817 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

77. UE5 RPG 创建角色的技能栏

在前面的文章里,我们实现了角色属性技能和场景。接下来,我们要优化角色显示UI,在屏幕底部显示角色血量,蓝量,技能和经验值。 创建新的用户控件 选择创建新的控件蓝图 父类为我们自定义的RPGUserWidget,这…

怎样在 PostgreSQL 中优化对 UUID 数据类型的索引和查询?

文章目录 一、UUID 数据类型概述二、UUID 索引和查询的性能问题三、优化方案(一)选择合适的索引类型(二)压缩 UUID(三)拆分 UUID(四)使用覆盖索引(五)优化查询…

C++语言学习精简笔记(包含C++20特性)

目录 1 C新语法C与CC编译运行String编程范式C基础类型**自动类型推导**统一对象初始化:Uniform Initialization 控制结构if语句for语句switch语句namespace 2 函数函数声明形式参数函数参数传递的选择函数返回值的选择 函数重载 Lambda表达式函数的定义和申明生存期…