摘要

基于transformer的大型语言模型在经验上取得了巨大的成功。然而，随着它们的部署越来越广泛，人们越来越需要更好地了解它们的内部机制，以使它们更加可靠。这些模型似乎存储了来自其训练数据的大量知识，并快速适应在其上下文或提示中提供的新信息。我们研究了transformer如何通过考虑一个合成设置来平衡这两种类型的知识，其中token是从全局或上下文特定的二元分布生成的。通过对简化的两层Transformer上的训练过程进行仔细的实证分析，我们说明了全局bigram的快速学习和上下文bigram的“感应头”机制的缓慢发展。我们强调了权重矩阵作为联想记忆的作用，提供了关于梯度如何在训练中实现其学习的理论见解，并研究了数据分布特性的作用。

1 引言

2 背景

3 合成设置

4 关联记忆的角度

5 实证研究

6 学习动态性的理论见解

7 讨论

在本文中，我们研究了Transformer如何在上下文学习能力中发展的问题，使用了一个简化的设置，可以细粒度地理解模型及其训练动态。虽然我们的模型已经捕捉到了我们所考虑的bigram任务中的丰富现象，但可能需要更精细的模型来理解在更复杂的任务（如语言建模）中训练的Transformer。这包括更适合数据和更结构化的学习嵌入（例如，单词嵌入或grokking），可能引起额外正则化效应的因子分解键查询和值输出矩阵，以及可能在嵌入集之间提供更丰富的联想记忆的非线性前馈层。了解Transformer如何利用这些方面在更丰富的环境中学习是重要的下一步。