Birth of a Transformer: A Memory Viewpoint

news/2025/2/5 4:54:14/

本文是LLM系列的文章,针对《Birth of a Transformer: A Memory Viewpoint》的翻译。

Transformer的诞生:一种记忆角度

  • 摘要
  • 1 引言
  • 2 背景
  • 3 合成设置
  • 4 关联记忆的角度
  • 5 实证研究
  • 6 学习动态性的理论见解
  • 7 讨论

摘要

基于transformer的大型语言模型在经验上取得了巨大的成功。然而,随着它们的部署越来越广泛,人们越来越需要更好地了解它们的内部机制,以使它们更加可靠。这些模型似乎存储了来自其训练数据的大量知识,并快速适应在其上下文或提示中提供的新信息。我们研究了transformer如何通过考虑一个合成设置来平衡这两种类型的知识,其中token是从全局或上下文特定的二元分布生成的。通过对简化的两层Transformer上的训练过程进行仔细的实证分析,我们说明了全局bigram的快速学习和上下文bigram的“感应头”机制的缓慢发展。我们强调了权重矩阵作为联想记忆的作用,提供了关于梯度如何在训练中实现其学习的理论见解,并研究了数据分布特性的作用。

1 引言

2 背景

3 合成设置

4 关联记忆的角度

5 实证研究

6 学习动态性的理论见解

7 讨论

在本文中,我们研究了Transformer如何在上下文学习能力中发展的问题,使用了一个简化的设置,可以细粒度地理解模型及其训练动态。虽然我们的模型已经捕捉到了我们所考虑的bigram任务中的丰富现象,但可能需要更精细的模型来理解在更复杂的任务(如语言建模)中训练的Transformer。这包括更适合数据和更结构化的学习嵌入(例如,单词嵌入或grokking),可能引起额外正则化效应的因子分解键查询和值输出矩阵,以及可能在嵌入集之间提供更丰富的联想记忆的非线性前馈层。了解Transformer如何利用这些方面在更丰富的环境中学习是重要的下一步。


http://www.ppmy.cn/news/1054877.html

相关文章

Little Snitch-网络防火墙安全软件-支持Apple M1

Little Snitch 5是一款Mac电脑上的网络安全软件,它可以监控和控制应用程序的网络连接,以防止恶意软件、间谍软件和其他不良程序通过网络进行数据传输和访问。 Little Snitch 5拥有一些非常强大的功能,包括: 实时监控应用程序的网…

数组指针、函数指针、指针数组、函数 指针数组、指针函数详细总结

1.数组指针概念和应用 首先数组指针应该是一个数组,它的定义如下: 数组指针,指的是数组名的指针,即数组首元素地址的指针。即是指向数组的指针。例:int (*p)[10]; p即为指向数组的指针,又称数组指针。 数…

taro h5 formData上传图片的坑-Required request part ‘file‘ is not present

描述:用formData上传图片 1、生成formData const formData new FormData() formData.append(file, data) // data是file formData.append(xxx, xxx) // 添加其他参数2、用taro.request请求 Taro.request({url: xxxx,data: formData,header: {Content-Type: mult…

网络传输介质的连接

目录 1.以太网接口 1.RJ-45接口 2.光纤接口 3.信息插座 2.双绞线的连接规范 1.以太网接口 以太网中由于传输介质的不同,连接线缆的接口也不同,本节将介绍目前最常用的传输介质--双绞线和光纤所使用的接口。 1.RJ-45接口 RJ是Registered Jack的缩写在…

[oneAPI] 使用Bert进行中文文本分类

[oneAPI] 使用Bert进行中文文本分类 Intel Optimization for PyTorch基于BERT的文本分类模型数据预处理数据集定义tokenize建立词表转换为Token序列padding处理与mask 模型 结果OneAPI参考资料 比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517…

面对全球跨境市场挑战,2023下半年如何适应新赛道与全托管布局?

在2023年,跨境电商行业逐渐复苏并持续发展,伴随着一系列有利于跨境贸易的政策逐步推动。 与此同时,随着多个平台陆续推出“全托管模式”,竞争在跨境电商巨头之间进一步激化。那么,面对2023年下半年的全球跨境市场挑战…

PMP如何备考?学习方式这里有

预习阶段:强烈建议跟着习课视频学习(自己看书真的很难看懂),初步了解PMBOK,有个大致印象; 精讲阶段:这个时候就需要静下心来深入了解各个知识模块,不仅是看PMBOK,还要尽…