- Arxiv日期:2022.9.29
- 机构:Google DeepMind / Stanford
关键词
- transformer架构原理
- 乔姆斯基体系
- 长度泛化
核心结论
1. 虽然Transformer理论上具有图灵完备性,但在实践中能力受到位置不变性和有限记忆的限制
2. Transformer在一些任务中表现较差,例如正则语言任务(如Parity Check),表明其与Chomsky层级的对齐性不佳
3. Transformer在序列长度超出训练范围时表现出较差的泛化能力,这可能归因于位置编码在长序列上的值超出分布范围
主要方法
通过对神经网络在序列预测任务上的泛化能力进行大规模实证研究,探索其在不同Chomsky层级任务上的表现,以及如何通过模型架构的改进提升其能力。
研究主要关注不同神经网络(RNN、LSTM、Transformer等)在处理形式语言任务时的表现,并试图将这些网络与Chomsky层级的理论模型联系起来:
主要任务和实验结论:
强调了Transformer和LSTM等先进模型在长序列泛化能力上存在显著不足,尤其是在任务复杂性超过其理论极限时。
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文