【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?

news/2024/12/5 4:47:05/

【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?

重要性:⭐⭐⭐ 💯


NLP Github 项目:

  • NLP 项目实践:fasterai/nlp-project-practice

    介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验

  • AI 藏经阁:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • AI 算法面经:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • NLP 剑指Offer:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题


RoPE相对正弦位置编码而言是更好的位置编码方式。一个好的位置编码应该满足以下条件:

  • 每个位置输出一个唯一的编码
  • 具备良好的外推性
  • 任何位置之间的相对距离在不同长度的句子中应该是一致的

RoPE可以更好的解决上面的三个问题。

正弦编码(Sinusoidal)

基于Sinusoidal的位置编码最初是由谷歌在论文Attention is All You Need中提出的方案,用于Transformer的位置编码。具体计算方式如下所示:

其中pos是位置,i表示维度。

  • 具有相对位置表达能力:Sinusoidal可以学习到相对位置,对于固定位置距离的k,PE(i+k)可以表示成PE(i)的线性函数。
  • 两个位置向量的内积只和相对位置 k 有关
  • Sinusoidal编码具有对称性。,即 P E ( t + k ) P E ( t ) = P E ( t ) P E ( t − k ) PE(t+k)PE(t) = PE(t)PE(t-k) PE(t+k)PE(t)=PE(t)PE(tk),这表明Sinusoidal编码具有对称性
  • 随着k的增加,内积的结果会直接减少,即会存在远程衰减
    • 正弦编码是否真的具备外推性?实际的Attention计算中还需要与attention的权重W相乘,即  P E t T W q T W k P E t + k PE_t^T{W}_q^{T}{W}_kPE_{t+k} PEtTWqTWkPEt+k ,这时候内积的结果就不能反映相对距离

正弦编码是否真的具备外推性?

似乎Sinusoidal只和相对位置有关。但是实际的Attention计算中还需要与attention的权重W相乘,即  P E t T W q T W k P E t + k PE_t^T{W}_q^{T}{W}_kPE_{t+k} PEtTWqTWkPEt+k ,这时候内积的结果就不能反映相对距离。正弦编码中真实的q,k向量内积和相对距离之间,没有远程衰减性,如下图所示:

首先,对于RoPE编码任何位置之间的相对距离在不同长度的句子中应该是一致的。

如果两个token在句子1中的相对距离为k,在句子2中的相对距离也是k,那么这两个句子中,两个token之间的相关性应该是一致的,也就是attention_sample1(token1, token2) = attention_sample2(token1, token2)。

可以从旋转矩阵的角度轻松理解此特性。

其次:RoPE编码中q,k向量内积只和相对位置有关

最后,RoPE位置编码具有良好的外推性。

RoPE位置编码:

可以看出,在外推(Extrapolation)时,红色点超出了预训练时的位置编码。

为了解决这个问题,位置线性内插的核心思想是通过缩放位置索引,使得模型能够处理比预训练时更长的序列,而不损失太多性能。

微调少量长文本,位置线性内插就能推理长文本:

另外,RoPE旋转位置编码不是作用在embedding的输入层,而是作用在与Attention的计算中,可以避免在输入中引入噪声。


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

http://www.ppmy.cn/news/1552470.html

相关文章

Java 中的 remove 方法深度解析

在 Java 编程中,remove方法是一个经常被使用的操作。它可以用于从各种数据结构中移除特定的元素,帮助我们有效地管理和操作数据。本文将深入探讨 Java 中的remove方法,包括在不同数据结构中的应用、使用场景、注意事项以及性能考虑等方面。 …

RouterOS ROSV7 基于域名的分流实现

使用RouterOS进行分流,网上早已有大神进行了实现,比较普通的是基于IP的分流,基于域名的分流也要,不过是V6的,这里总结了V7基于域名的分流方式,要比V6方便许多 本人也是看了多篇文章有所启发,比较…

elasticsearch修改Ik分词器源码实现基于MySQL更新分词

本文主要记录如何修改Ik分词器源码来实现基于MySQL数据库更新分词,所有步骤均为本人实际操作验证。如果你也刚好刷到这篇文章,希望对你有所帮助。 使用过Ik分词器的应该都知道,它提供了三种配置热词词库的方式: Ik内置词库Ik外置…

mysql 更新字段

更新字段 UPDATE familydb.familyinfo SET familyName cuicuis home WHERE familyName homenew; 同时更新相同字段不同值 UPDATE familydb.familyinfo SET familyName CASE WHEN familyName homenew THEN cuicuis home WHEN familyName lala THEN 17611111118s home ELSE…

【数据分析】如何根据数据选择图表类型

1. 如何根据数据选择图表类型? 选择图表类型时,应考虑数据的特点、数据量、数据之间的关系以及你想要传达的信息。以下是一些指导原则,可以帮助你根据数据选择最合适的图表类型: 数据类型: 分类数据:使用条…

初学git报错处理 | 从IDEA远程拉取、创建分支中“clone failed”“couldn‘t checkout”

1.远程拉取“clone failed” 我新建了一个文件夹,结果clone failed。后来发现,原来是在这个文件夹里没有建立本地仓库。 打开文件夹,右键git bush,然后键入git init,就可以成果clone啦! 2.新建分支“couldnt checkou…

两个用来刷新Windows环境变量让会话即时生效的刷新脚本分享

环境变量刷新脚本:RefreshEnv.bat 和 RefreshEnv.ps1 在Windows系统中,环境变量对于程序的正常运行至关重要。当安装新软件或修改系统设置后,环境变量可能会发生变化,但这些变化通常需要重启命令提示符或PowerShell会话才能生效。为了解决这个问题,我们提供了两个脚…

WPF DataGrid 列隐藏

Window节点加上下面的 <Window.Resources><FrameworkElement x:Key"ProxyElement" DataContext"{Binding}" /></Window.Resources>然后随便加一个隐藏控件 <ContentControl Content"{StaticResource ProxyElement}" Visi…