Differential Transformer
差分Transformer
论文地址:https://arxiv.org/pdf/2410.05258
差分 Transformer 的轻量实现,https://github.com/Jaykef/ai-algorithms/blob/main/DIFF_Transformer.ipynb
摘要
Transformer倾向于过度分配注意力到无关的上下文。在本文中,我们引入了DIFF Transformer,它放大对相关上下文的关注同时消除噪声。具体来说,差分注意机制计算两个单独softmax 注意力图之间的差异作为注意分数。减法可以消除噪声,促进稀疏注意模式的出现。语言建模实验结果表明,在模型规模和训练令牌的各种设置下,DIFF Transformer 都优于Transformer。更有趣的是,它在实际应用中具有显著优势,例如