LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

embedded/2025/2/21 8:11:25/

Arxiv日期：2024.2.14
机构：Google DeepMind / University of Toronto

关键词

长度泛化
位置编码
数据格式

核心结论

1. 实验结论：十进制加法任务上的长度泛化最佳组合：

FIRE位置编码
随机化位置编码
反向数据格式
索引提示（index hints，辅助定位）

2. 在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加法）

3. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序，导致不同试验之间的性能差异显著

4. 增大模型规模对长度泛化的提升有限，且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化（length generalization）上的表现，特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码（position encoding）和数据格式，证明了Transformer在长度泛化上的潜力，但同时指出了其鲁棒性较差的问题。

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文

http://www.ppmy.cn/embedded/164022.html

相关文章

MySQL（1）基础篇

MySQL（1）基础篇

执行一条 select 语句，期间发生了什么？ | 小林coding 目录 1、连接MySQL服务器 2、查询缓存 3、解析SQL语句 4、执行SQL语句 5、MySQL一行记录的存储结构 Server 层负责建立连接、分析和执行 SQL存储引擎层负责数据的存储和提取。支持InnoDB、MyIS…

阅读更多...

前端编程基础开发规范

前端编程基础开发规范

文章目录项目创建目录结构命名规范文件命名通用规则不同类型文件命名： 代码命名规范通用规范代码规范HTML代码规范标签闭合标签语义化标签嵌套规则属性引号布尔属性注释规范避免内联样式和脚本减少不必要的标签和属性 CSS代码规范注释代码格式化选择器规范1. 命…

阅读更多...

代码随想录算法训练day59---图论系列4

代码随想录算法训练day59---图论系列4

代码随想录算法训练 —day59 文章目录代码随想录算法训练前言一、110.字符串接龙二、105.有向图的完全可达性dfs版本1dfs版本2bfs版本三、100. 岛屿的最大面积方法一方法二总结前言今天是算法营的第59天，希望自己能够坚持下来！ 今天继续图论part&…

阅读更多...

《95015网络安全应急响应分析报告（2024）》

《95015网络安全应急响应分析报告（2024）》

2025年2月，95015服务平台发布了最新一期的《95015网络安全应急响应分析报告（2024）》。报告分别从整体形势、受害者特征、攻击者特征等方面，对2024年95015平台接报的739起网络安全应急响应事件展开分析，并给出了7个年度…

阅读更多...

DeepSeek在linux下的安装部署与应用测试

DeepSeek在linux下的安装部署与应用测试

结合上一篇文章，本篇文章主要讲述在Redhat linux环境下如何部署和使用DeepSeek大模型，主要包括ollama的安装配置、大模型的加载和应用测试。关于Open WebUI在docker的安装部署，Open WebUI官网也提供了完整的docker部署说明，大家可…

阅读更多...

深度学习-123-综述之AI人工智能与DL深度学习简史1956到2024

深度学习-123-综述之AI人工智能与DL深度学习简史1956到2024

文章目录 1 AI与深度学习的简史1.1 人工智能的诞生(1956)1.2 早期人工神经网络(1940-1960年代)1.3 多层感知器MLP(1960年代)1.4 反向传播(1970-1980年代)1.5 第二次黑暗时代(1990-2000年代)1.6 深度学习的复兴(21世纪末至今)1.6.1 CNN卷积神经网络(1980-2010)1.6.2 RNN递归神经…

阅读更多...

使用verilog 实现 cordic 算法 ----- 旋转模式

使用verilog 实现 cordic 算法 ----- 旋转模式

1-设计流程 ● 了解cordic 算法原理，公式，模式，伸缩因子，旋转方向等，推荐以下链接视频了解 cordic 算法。哔哩哔哩-cordic算法原理讲解 ● 用matlab 或者 c 实现一遍算法 ● 在FPGA中用 verilog 实现，注意…

阅读更多...

HTML元素

HTML元素

HTML文档是由各种各样功能的元素标签构成的，接下来这些元素可能你没有见过，不要担心，后面会逐一介绍它们，这里作为一个组略的了解，除了上一节我们介绍的span，h1，p标签外，HTML还有很多…

阅读更多...

最新文章