微软 AI 发布 LongRoPE2:近乎无损地将大型语言模型上下文窗口扩展至 128K 标记,保持 97% 短上下文准确性

server/2025/3/17 20:24:39/

大型语言模型(LLMs)虽然取得了显著进展,但其在有效处理长上下文序列方面的局限性依然存在。尽管像 GPT-4o 和 LLaMA3.1 这样的模型支持长达 128K 个标记的上下文窗口,但在扩展长度上保持高性能却颇具挑战。旋转位置嵌入(RoPE)在 LLMs 中编码位置信息,但在超出其预训练限制时会出现分布外(OOD)问题。这些 OOD 值出现在高维 RoPE 嵌入中,导致性能下降。更长的上下文窗口对于多轮对话、文档分析和长篇推理等人工智能应用至关重要。在没有有效的扩展方法的情况下,LLMs 在超出其默认长度时会在效率和准确性上挣扎。

大多数现有的扩展上下文窗口的方法都依赖于基于启发式的 RoPE 重新缩放,这未能完全解决 OOD 问题,通常达不到目标有效上下文长度。像 YaRN、NTK 和 LongRoPE 这样的方法从理论模型中推导出重新缩放因子,但实际测试揭示了显著的性能权衡。例如,当 LLaMA3.1 使用 YaRN 扩展其上下文窗口时,在 RULER 基准测试中,性能在超过 64K 个标记后急剧下降。扩展上下文长度也经常降低短上下文性能,使得这些方法在短距离和长距离处理应用中不切实际。在 Phi3-mini-3.8B 等模型中,这一问题尤为严重,简单的 RoPE 扩展会使 MMLU 分数降低 7.56 分。

微软的研究人员引入了 LongRoPE2 来克服这些局限性。LongRoPE2 的设计目标是将 LLMs 的上下文窗口扩展到 128K 个标记,同时保持超过 98.5% 的短上下文准确性。它通过解决三个核心问题来实现这一目标。首先,研究团队假设高维 RoPE 在训练中不足,导致在扩展标记位置时出现意外的 OOD 值。为了缓解这一问题,LongRoPE2 引入了一种针驱动的困惑度(PPL)评估,专门针对需要深度上下文理解的标记,与传统的困惑度度量不同,后者无法区分关键和非关键标记。其次,LongRoPE2 采用了一种基于进化搜索的 RoPE 重新缩放算法,优化了超出理论假设的重新缩放因子,确保与扩展上下文更好地对齐。最后,它结合了混合上下文窗口训练,模型在短序列和长序列上都进行了微调,从而防止了短上下文任务的性能损失,同时确保了长上下文的有效适应。

LongRoPE2 的技术方法从识别 RoPE 嵌入中的真正临界维度开始。研究发现,理论临界维度低估了 RoPE 缩放的实际需求,实证观察表明,RoPE 维度需要比预测更大的缩放因子才能达到最佳性能。这促使开发了一种自适应重新缩放方法,使用迭代进化搜索来微调 RoPE 缩放因子。与以前的静态缩放方法不同,LongRoPE2 根据每个标记的困惑度评估动态调整重新缩放,确保嵌入保持在预训练范围内,同时在长上下文中最大化其有效性。该算法确定了高维 RoPE 的最佳重新缩放因子,同时对低维应用 NTK 缩放,确保了平稳的适应过程。这种方法有效地将 LLaMA3-8B 扩展到 128K 个标记,同时保持了超过 97% 的短上下文准确性,并在长上下文基准测试中超越了以前的方法。

性能评估显示 LongRoPE2 在各种基准测试中的优越性。广泛的 Phi3-mini-3.8B 和 LLaMA3-8B 测试表明,LongRoPE2 在 RULER、LongBench 和 InfiniteBench 上取得了最先进的结果。在评估 LLMs 长上下文处理能力的 RULER 基准测试中,LongRoPE2 将 LLaMA3-8B 扩展到 128K 个标记,得分 82.03,而 LongRoPE 为 73.40,YaRN 为 49.39。Phi3-mini-3.8B 的表现甚至更好,在 128K 个标记上得分为 58.81,显著优于 NTK,后者在同一上下文长度下仅达到 49.37。最引人注目的发现之一是,Meta 的方法需要 800B 个训练标记才能达到 128K 个标记,而 LongRoPE2 仅用 10B 个标记就实现了这一目标,效率提高了 80 倍。此外,LongRoPE2 在 “大杂烩中的针” 压力测试中实现了近乎完美的准确率,展示了其在长序列中检索深度嵌入信息的能力,而像 NTK 这样的以前的方法在扩展长度上经常失败。

这项研究的一个关键收获是,扩展 LLM 上下文窗口不仅仅是增加标记长度的问题,还需要解决位置嵌入中的根本局限性。研究结果表明,高维 RoPE 训练不足,需要自适应缩放而不是固定的重新缩放因子。针驱动的 PPL 评估在确定最佳 RoPE 缩放因子方面至关重要,确保模型在长距离依赖中保持准确性。混合上下文窗口训练技术确保模型保留了超过 97.6% 的短上下文性能,使 LongRoPE2 成为第一个近乎无损的扩展方法。此外,LongRoPE2 对 RoPE 重新缩放因子的进化搜索揭示了以前的分析方法低估了高维嵌入中的缩放需求,导致以前方法的性能不佳。

研究的一些关键亮点包括:

  1. LongRoPE2 成功将 LLaMA3-8B 扩展到 128K 个标记,准确率为 82.03%,超越了所有以前的方法。

  2. 与 Meta 的方法需要 800B 个训练标记不同,LongRoPE2 仅用 10B 个标记就实现了相同的扩展,效率提高了 80 倍。

  3. 模型保留了 97.6% 的短上下文性能,而以前的方法显著下降。

  4. 针驱动的困惑度评估引入了一种确定最佳 RoPE 重新缩放因子的新方法,允许精确适应长上下文。

  5. 在 RULER 基准测试中,LongRoPE2 在 128K 个标记上得分为 82.03,而 LongRoPE 为 73.40,YaRN 为 49.39。

  6. 模型在 “大杂烩中的针” 测试中实现了近乎完美的检索准确率,显著优于基于 NTK 的方法。

  7. LongRoPE2 证明了自适应进化搜索基础的缩放方法远优于静态重新缩放技术。

详见论文:https://arxiv.org/abs/2502.20082


http://www.ppmy.cn/server/175775.html

相关文章

Android Room 框架表现层源码深度剖析(三)

一、引言 在 Android 应用开发中,表现层(Presentation Layer)扮演着至关重要的角色,它负责将数据以直观、友好的方式展示给用户,并处理用户的交互操作。Android Room 框架作为一个强大的数据库抽象层,为数…

AGI大模型(5):提示词工程

1 什么是提示词工程(Prompt) 所谓的提示词其实指的就是提供给模型的⼀个⽂本⽚段,⽤于指导模型⽣成特定的输出或回答。提示词的⽬的是为模型提供⼀个任务的上下⽂,以便模型能够更准确地理解⽤户的意图,并⽣成相关的回应。 2 什么是提示⼯程(Prompt Engineering) 所谓的提…

Windows下安装Git客户端

① 官网地址:https://git-scm.com/。 ② Git的优势 大部分操作在本地完成,不需要联网;完整性保证;尽可能添加数据而不是删除或修改数据;分支操作非常快捷流畅;与Linux 命令全面兼容。 ③ Git的安装 从官网…

《灵珠觉醒:从零到算法金仙的C++修炼》卷三·天劫试炼(35)山河社稷图展开 - 编辑距离(字符串DP)

《灵珠觉醒:从零到算法金仙的C++修炼》卷三天劫试炼(35)山河社稷图展开 - 编辑距离(字符串DP) 哪吒在数据修仙界中继续他的修炼之旅。这一次,他来到了一片神秘的山河社稷图,图中有一卷古老的山河社稷图,图面闪烁着神秘的光芒。图前有一块巨大的石碑,上面刻着一行文字…

Spring Cloud 中的服务注册与发现: Eureka详解

1. 背景 1.1 问题描述 我们如果通过 RestTamplate 进行远程调用时,URL 是写死的,例如: String url "http://127.0.0.1:9090/product/" orderInfo.getProductId(); 当机器更换或者新增机器时,这个 URL 就需要相应地变…

机器学习与深度学习中模型训练时常用的四种正则化技术L1,L2,L21,ElasticNet

L1正则化和L2正则化是机器学习中常用的两种正则化方法,用于防止模型过拟合。它们的区别主要体现在数学形式、作用机制和应用效果上。以下是详细对比: 1. 数学定义 L1正则化(也叫Lasso正则化): 在损失函数中加入权重参…

【计算机网络】2物理层

物理层任务:实现相邻节点之间比特(或)的传输 1.通信基础 1.1.基本概念 1.1.1.信源,信宿,信道,数据,信号 数据通信系统主要划分为信源、信道、信宿三部分。 信源:产生和发送数据的源头。 信宿:接收数据的终点。 信道:信号的传输介质。 数据和信号都有模拟或数字…

【经验】Orin系列Ubuntu远程桌面:VNC、NoMachine、URDC

1、VNC 1.1 Ubuntu端 1)安装VNC服务器 sudo apt install tigervnc-standalone-server2)安装xfce4 桌面 xfce4 用资源较GNOME ,KDE较少。适合老机器,轻量级桌面。与windows界面环境类似。 sudo apt install xfce4 xfce4-goodies也可以使用其它的桌面系统,可以使用如下命…