Are Emergent Abilities of Large Language Models a Mirage?

news/2024/11/28 6:25:47/

Paper name

Are Emergent Abilities of Large Language Models a Mirage?

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2304.15004.pdf
Video URL: https://www.youtube.com/watch?v=hZspGdApDIo

TL;DR

  • 2023 年斯坦福的研究,探索大语言模型表现出涌现能力的原因,初步结论是涌现能力主要是由研究人员选择一个非线性或不连续的评价指标导致的,另外探索了如何诱导涌现能力的出现,本文在视觉任务上通过对评价指标的修改复现了涌现现象。

Introduction

背景

  • 最近的工作声称大型语言模型表现出涌现能力,也即只在大模型上有的现象,一般在小模型上不会出现
    • 涌现能力最初是在 GPT3 上观察到的
    • 最近一些工作认为 llm 应该要具备类似“突然的、特定的能力缩放”的涌现能力
      在这里插入图片描述
  • 有两个原因让涌现能力变得有趣
    • 突变:该现象从之前的不存在到现在的存在过渡似乎是瞬间发生
    • 不可预测:在看似不可预见的模型尺度上过渡
  • 神奇的涌现能力也不禁让我们产生一些思考:
    • 什么控制了涌现能力的出现?
    • 什么控制了何时出现涌现能力?
    • 如何让涌现能力更快出现?

本文方案

  • 本文发现涌现能力似乎仅在非线性或不连续地缩放模型的 token 错误率的指标下出现
    在这里插入图片描述
    • 这就提出了对 LLM 涌现能力来源的另一种解释: 研究人员选择测量指标可能会导致看似尖锐和不可预测的变化,即使模型的每个 token 错误率随着模型规模增加而平滑、连续和可预测地变化。也即涌现能力是由研究人员选择一个非线性或不连续的评价指标导致的,另外也有一部分测试数据较少的原因(导致小模型看起来完全无法执行任务)以及评估的大规模模型较少
  • 在一个简单的数学模型上展示了本文的解释,然后以三种互补的方式对提出的解释进行验证:
    • 利用 InstructGPT/GPT-3 模型系列验证了三个评价指标会导致的影响预测
    • BIG-Bench 上分析关于度量选择的影响预测,在“任务-指标-模型”的三元组上,验证了只有一些特定的指标上出现了涌现能力。在固定模型输出的情况下,修改评价指标就会导致涌现能力消失
    • 视觉任务上引入非线性或不连续的评价指标后也可以展现出涌现能力
  • 在所有三个分析中,本文发现了强有力的支持证据,证明涌现能力可能不是缩放 AI 模型的基本属性

Dataset/Algorithm/Model/Experiment Detail

实现方式

涌现能力的解释

在这里插入图片描述

  • neural scaling laws:经验观察,深度网络在测试损失中表现出是训练数据集大小、参数数量(模型大小)或计算的幂律缩放函数
    在这里插入图片描述
    其中 N 是模型参数量,c>0, α < 0 \alpha<0 α<0 ,如上图 A 所示

  • 写成 per-token 交叉熵的形式
    在这里插入图片描述
    实际上替换了经验观察到的 token v * 的 one-hot 分布,将上式转换为
    在这里插入图片描述
    然后具有 N 个参数的模型具有选择正确 token 的 per-token 概率,如上图 B 所示在这里插入图片描述- 假设研究人员选择一个需要正确选择长度为 L 的 token 序列的评价指标(例如,我们的任务可能是 L 位整数加法,当且仅当所有 L 个输出数字与没有添加、删除或替换的所有目标数字完全匹配时,模型的输出才会被评为准确)。如果 token 正确的概率与其他预测 token 无关,则模型正确输出所有 L 个 token 的概率为
    在这里插入图片描述
    这种度量的选择随着 token 序列长度的增加而非线性缩放性能,在绘制线性对数图上较长序列的性能时,可以看到一个尖锐、不可预测的涌现能力,如上图 C 所示

  • 如果换成 Token Edit Distance 这样的近似线性度量,per-token 错误率在目标长度上以准线性缩放,如上图 E

  • 如果使用不连续的评估指标,比如 Multiple Choice Grade,也可以看到涌现能力,如上图 D。二如果换成类似 Brier Score 之类的连续评估指标,就不会有涌现现象,如上图 F

  • 【总结】涌现现象的解释

    • 非线性和不连续的评估指标放大了 per-token 误差率
    • 大规模模型下的采样不充分,也即大模型下的实验一般比较少
    • 小模型的评估细粒度不够,及如果训练数据量少的情况下细粒度为 1/test dataset size,所以应该尽量增加评估数据量

实验结果

InstructGPT/GPT-3 涌现能力分析

  • 下图从左到右分别是

    • 数学模型,2个两位整数乘法任务,2个四位整数加法任务
  • 下图上面的是非线性的 accuracy 评价指标,有涌现现象,如果使用线性的 Token Edit Distance ,则随着模型参数增加性能是平滑可预测的提升
    在这里插入图片描述

  • 使用更多的评测数据使得性能变化是平滑、连续和可预测的。即便是在非线性的 accuracy 指标下,涌现现象也消失了
    在这里插入图片描述

对声称涌现能力的分析

  • 基于 BIG-Bench 这个大语言模型测试工具,39 个评价指标中,出现涌现能力的评价指标最多只有 5 个,大于 92% 的涌现能力来源于 Multiple Choice Grade 和 Exact String Match 这两个非线性或不连续指标
    在这里插入图片描述
  • 改变评价指标可以让涌现能力消失
    在这里插入图片描述

诱导涌现能力的方式

  • 在全连接网络、卷积网络、自注意网络上诱导涌现能力,主要关注视觉任务(之前视觉任务很少关注到涌现现象)

  • 改变评价指标可以在 MNIST 上复现涌现能力,实验模型是 LeNet,评价指标重新定义为 subset accuracy:K 个测试数据都需要预测正确才算对
    在这里插入图片描述

  • 在非线性 autoencoders 上的实验,重建指标改为 R e c o n s t r u c t i o n c Reconstruction_{c} Reconstructionc 后有涌现现象
    在这里插入图片描述
    在这里插入图片描述
    该指标卡了阈值造成了指标不连续,需要误差小于 c 才算正确

  • autoregressive transformers 上的诱导涌现能力实验,在 MMLU 数据集上做的,自回归分类 Omniglot 手写数字。指标重新定义为正确分类序列中的所有图像就会展现涌现能力
    在这里插入图片描述

Thoughts

  • 对涌现现象的一个看起来合理的解释,作者全篇的行文风格主要是在阐述该解释,并结合多个实验进行论证,并没有说该解释一定是确保正确,不排除未来有更合理的涌现现象解释
  • 设置评价指标的时候需要考虑该指标对于 per-token 错误率的影响
    • 比如如果选择 accuracy 作为评价指标,应该确保有足够的数据来准确测量模型性能;使用太少的数据意味着分辨率太低,这增加了得出无效科学结论的可能性
  • 确定常用的 NLP 指标与人类偏好相关的程度应该是需要优先考虑的:
    • 一些自动化的指标不一定靠谱,比如 BIG-Bench 上的 “Q: What is 4 plus 5?”,回答 “The sum of 4 and 5 is 9” 会被判别为错误,因为评价的方式是取回答中的第一个数字作为答案
    • 不靠谱的 NLP 指标会导致模型在这些指标上过拟合,并不满足人类真正的需求
  • 作者最后还批评了当前部分不公开模型或者 API 的问题会阻碍学术研究进展,推荐是至少要像 GPT3 这样公开 API 调用
  • 基于本文的结果来看,因为人类现在主观也觉得大模型有涌现现象,人类主观评价可能也是非线性和不连续的

http://www.ppmy.cn/news/158717.html

相关文章

生日蛋糕 dfs 剪枝

&#x1f351; 算法题解专栏 &#x1f351; 生日蛋糕 7 7 7 月 17 17 17 日是 Mr.W 的生日&#xff0c;ACM-THU 为此要制作一个体积为 N π Nπ Nπ 的 M M M 层生日蛋糕&#xff0c;每层都是一个圆柱体。 设从下往上数第 i i i 层蛋糕是半径为 R _ i R\_i R_i&#xff0…

学生开学必备数码好物有哪些?值得入手的数码好物

又到了一年一度的开学季&#xff0c;很多大学生也陆续准备开学必备数码产品。对于学生党来说&#xff0c;买数码产品的预算是非常有限的&#xff0c;但在性价比与实用性方面是必备的&#xff0c;如果想要有限的价格内选择实用性好的产品是非常有必要的。今天我就为大家推荐几款…

学生用什么台灯性价比很高?分享五款学生最好的护眼灯品牌

学生使用的护眼台灯一定还是要光源舒适的&#xff0c;对于儿童青少年的视力健康要在注重起来&#xff0c;选择一款健康护眼的台灯就是头疼的问题&#xff0c;更别说想要性价比高的&#xff0c;首先要先看台灯的质量&#xff0c;要从照度、色温、显色指数、频闪等方面来综合考虑…

喷墨墨水

年底发了年终奖&#xff0c;买了一个打印机&#xff0c;由于不是用来打照片&#xff0c;所有卖了ip1180&#xff0c;在家里打点东西。但是挑打印机最好还是从耗材挑起&#xff0c;如果现在让我选一个我会选ip36xx以及类似的型号。对于打印机厂家&#xff0c;耗材是真的贵&#…

双十二护眼灯牌子买什么的好?几款比较好的学生护眼灯推荐

双十二即将来临&#xff0c;相信很多小伙伴们也开始着手选择比较喜欢的东西了吧&#xff0c;那对于学生来讲&#xff0c;护眼台灯也是一个不可忽视的好东西。 现在的学习压力这么大&#xff0c;用眼过于频繁&#xff0c;所以很多学生孩子眼睛就很容易近视&#xff0c;小小年纪就…

开学季数码好物分享,哪些数码好物值得入手

时间过得真快&#xff0c;又到了开学季&#xff0c;各高校的大一新生们陆续往学校方向启航。对于第一次读高校的同学们该准备些什么数码好物呢&#xff0c;肯定会有些迷茫&#xff0c;不知道该如何选择实用性好的数码产品。小篇下面就来给大家带来大一新生开学数码物品清单&…

学生写作业用白光还是暖光?分享值得入手的暖白光护眼台灯

学生在眼健康方面是越来越重视了&#xff0c;护眼台灯品牌也是五花八门&#xff0c;学生写作业用白光还是暖光&#xff1f;好好地给大家分析下。 所谓的白光、暖光指的是光源的色温。 色温是一种温度衡量方法&#xff0c;来表示光线的颜色&#xff0c;有冷暖之分。单位为“K”&…

开学季学生党需要准备哪些数码好物,分享几款实用的数码好物

开学季来临&#xff0c;新届大一新生也开始准备自己的大学生活&#xff0c;在这时候相信有很多同学都会准备添置一些数码好物。很多同学都想找日常会使用到的一些数码产品&#xff0c;但又希望是性价比高的且实用性好的。小篇对数码产品方面多少有点了解&#xff0c;下面小篇就…