在语言建模任务上,拥有 760M 参数的 Titans(MAC) 在 WikiText 上达到了 19.93 的困惑度,显著优于同等规模的 Transformer++(25.21) 和 Mamba2(22.94)。在常识推理任务上,Titans 在包括 PIQA、HellaSwag、WinoGrande 等 9 个基准测试中的平均准确率达到 52.51%,超过了现有的最好成绩。
Titans Learning to Memorize at Test Time
https://arxiv.org/pdf/2501.00663
在Transformer面临长序列上下文窗口扩展难题的背景下展开研究,提出了一种新的神经长期记忆模块及Titans架构,通过实验证明在语言建模、常识推理等任务中比现有模型更有效,能处理超过2M的上下文窗口,为长序列任务提供了新的解决方案。
研究背景
- Transformer的局限:Transformer是序列建模的前沿架构,但注意力机制在处理长序列时存在二次时间和内存复杂度问题&