关于Transformer中的位置编码

news/2025/2/11 4:30:15/

位置编码 (Positional Encoding)

位置编码是在自然语言处理中,特别是在 Transformer 架构中使用的一个重要概念。Transformer 架构由于其自注意力机制 (Self-Attention Mechanism) 的特性,对序列中的元素没有固有的顺序感知。这意味着,如果不加以处理,Transformer 无法区分序列中的元素的相对位置。为了解决这个问题,位置编码被引入。

位置编码的重要性

位置编码的重要性主要体现在以下几点:

  1. 序列顺序的感知:在许多任务中,如机器翻译、文本生成等,元素的顺序是非常关键的。位置编码确保 Transformer 可以考虑到这种顺序。
  2. 增强模型的表达能力:位置编码为模型提供了额外的信息,使其能够更好地理解和生成序列。
  3. 灵活性:位置编码是可学习的,这意味着模型可以在训练过程中调整它,以更好地适应特定的任务。
  4. 与自注意力机制的结合:位置编码与自注意力机制结合,使 Transformer 能够考虑到序列中的长距离依赖关系。

图像中的位置编码

在图像处理中,位置编码的引入与自然语言处理中的方法有所不同,但基本的原理是相似的:为模型提供空间位置信息。以下是几种在图像处理中引入位置编码的方法:

1. 二维位置编码

与自然语言处理中的一维位置编码不同,图像通常需要二维的位置编码来表示其宽度和高度。这可以通过为每个像素或区域分配一个二维编码来实现。

2. 绝对位置编码

为图像中的每个像素或区域分配一个固定的编码,表示其在图像中的绝对位置。

3. 相对位置编码

与绝对位置编码不同,相对位置编码表示一个像素或区域与其他像素或区域之间的相对位置关系。

4. 位置嵌入 (Position Embeddings)

这是一种学习位置信息的方法。与位置编码不同,位置嵌入是在模型训练过程中学习的,而不是预先定义的。

5. 卷积操作

卷积神经网络 (CNN) 通过其卷积操作隐式地捕获位置信息。但在某些无卷积的模型结构中,如 Vision Transformer (ViT),需要显式地引入位置编码。

6. 扩展到更高维度

对于视频或3D图像,可以考虑引入三维或更高维度的位置编码。

7. 组合方法

在某些应用中,可能需要同时使用多种方法来捕获位置信息,例如,结合绝对位置编码和相对位置编码。

绝对位置编码

绝对位置编码是为序列中的每个位置分配一个固定的编码,这个编码表示该位置在整个序列中的确切位置。这种编码方式不依赖于其他位置,因此被称为“绝对”。

特点:

  • 固定编码:每个位置都有一个预定义的编码,不受其他位置的影响。
  • 独立性:绝对位置编码不考虑其他位置,只关注当前位置。
  • 常见实现:在 Transformer 模型中,通常使用正弦和余弦函数来生成绝对位置编码。

相对位置编码

相对位置编码不是直接编码每个位置,而是编码两个位置之间的相对距离。例如,对于一个给定的位置,其与其他位置的相对位置编码将表示它们之间的距离或关系。

特点:

  • 距离感知:相对位置编码捕获了两个位置之间的距离或关系。
  • 动态性:相对于一个固定的参考点,其他位置的编码会发生变化。
  • 应用场景:在某些模型中,如 Transformer 的自注意力机制,相对位置编码可以帮助模型捕获长距离的依赖关系。

对比:

  • 稳定性:绝对位置编码为每个位置提供了一个稳定的、不变的编码,而相对位置编码则依赖于参考位置。
  • 灵活性:相对位置编码可以更灵活地捕获位置之间的关系,而绝对位置编码则更注重每个位置本身。
  • 实现复杂性:相对位置编码的实现通常比绝对位置编码更复杂,因为它需要考虑两个位置之间的关系。

绝对位置编码

绝对位置编码在 Transformer 模型中使用正弦和余弦函数来表示每个位置的信息。

公式

对于偶数维度 (i):
P E ( p o s , 2 i ) = sin ⁡ ( p o s 1000 0 2 i d model ) PE(pos, 2i) = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right) PE(pos,2i)=sin(10000dmodel2ipos)

  1. 对于奇数维度 (i):
    P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s 1000 0 2 i d model ) PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right) PE(pos,2i+1)=cos(10000dmodel2ipos)

其中:

  • P E ( p o s , 2 i ) PE(pos, 2i) PE(pos,2i)是位置 p o s pos pos 在维度 i i i的位置编码。
  • d model d_{\text{model}} dmodel是模型的维度。

代码分析

代码中的这一部分:

div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))

实际上是在计算上述公式的除数部分:
div_term = 1000 0 2 i d model \text{div\_term} = 10000^{\frac{2i}{d_{\text{model}}}} div_term=10000dmodel2i

当我们对上述公式取自然对数,我们得到:
log ⁡ ( div_term ) = 2 i d model log ⁡ ( 10000 ) \log(\text{div\_term}) = \frac{2i}{d_{\text{model}}} \log(10000) log(div_term)=dmodel2ilog(10000)
这与代码中的形式相匹配,其中 np.exp 是为了从对数形式回到原始的指数形式。

Python 实现

import numpy as np
def get_positional_encoding(seq_len, d_model):position = np.arange(seq_len)[:, np.newaxis]div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))position_encoding = np.zeros((seq_len, d_model))position_encoding[:, 0::2] = np.sin(position * div_term)position_encoding[:, 1::2] = np.cos(position * div_term)return position_encoding

相对位置编码

相对位置编码主要用于增强 Transformer 中的自注意力机制对位置信息的感知。在原始的 Transformer 模型中,注意力权重是基于查询(Q)、键(K)和值(V)来计算的。当引入相对位置编码时,我们会修改注意力权重的计算方式,使其同时考虑相对位置信息。

使用相对位置编码的简化步骤:

  1. 计算相对位置编码:首先,使用提供的 relative_positional_encoding 函数计算相对位置编码。
  2. 计算注意力权重:在计算自注意力的 Q 和 K 的点积时,将相对位置编码添加到结果中。这可以通过将相对位置编码与 Q 的每一行相乘并求和来实现。
  3. 归一化注意力权重:使用 softmax 函数归一化注意力权重。
  4. 计算输出:使用归一化的注意力权重与 V 相乘,得到自注意力的输出。

Python 代码示例

import numpy as npclass SelfAttentionWithRelativePosition:def __init__(self, d_model, seq_len):self.d_model = d_modelself.seq_len = seq_lenself.scale = np.sqrt(d_model)# 初始化权重self.WQ = np.random.rand(d_model, d_model)self.WK = np.random.rand(d_model, d_model)self.WV = np.random.rand(d_model, d_model)# 获取相对位置编码self.relative_pos_encoding = self.relative_positional_encoding(seq_len, d_model)def relative_positional_encoding(self, seq_len, d_model):position = np.arange(seq_len)relative_position_matrix = position[:, np.newaxis] - position[np.newaxis, :]relative_position_matrix = np.clip(relative_position_matrix + seq_len, 0, 2 * seq_len - 1)div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))sinusoid_table = np.zeros((2 * seq_len, d_model))sinusoid_table[:, 0::2] = np.sin(relative_position_matrix * div_term)sinusoid_table[:, 1::2] = np.cos(relative_position_matrix * div_term)return sinusoid_table[relative_position_matrix]def forward(self, Q, K, V):Q = np.matmul(Q, self.WQ)K = np.matmul(K, self.WK)V = np.matmul(V, self.WV)attn_logits = np.matmul(Q, K.T) / self.scaleattn_logits += np.matmul(Q, self.relative_pos_encoding.T)attn_weights = np.exp(attn_logits) / np.sum(np.exp(attn_logits), axis=-1, keepdims=True)output = np.matmul(attn_weights, V)return output# 示例
seq_len = 10
d_model = 512
Q = np.random.rand(1, d_model)
K = np.random.rand(seq_len, d_model)
V = np.random.rand(seq_len, d_model)attention_layer = SelfAttentionWithRelativePosition(d_model, seq_len)
output = attention_layer.forward(Q, K, V)
print(output)

http://www.ppmy.cn/news/1044225.html

相关文章

AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程

免责声明: 本案例所用安装包免费提供,无任何盈利目的。 大家好,我是风雨无阻。 想必大家经常看到,无论是在产品营销还是品牌推广时,很多人经常以数字人的方式来为自己创造财富。而市面上的数字人收费都比较昂贵,少则几…

Vue-13.创建完整的Vue项目(vue+vue-cli+js)

前言 之前写了命令创建Vue项目,但是事实上我们可以直接用编译器直接创建项目,这里我使用webstorm(因为我是前后端兼修的所以我习惯使用Idea家族的编译器) 只写前端的推荐用VsCode前后端都写的推荐用webstorm 新建项目 项目初始…

【100天精通python】Day41:python网络爬虫开发_爬虫基础入门

目录 专栏导读 1网络爬虫概述 1.1 工作原理 1.2 应用场景 1.3 爬虫策略 1.4 爬虫的挑战 2 网络爬虫开发 2.1 通用的网络爬虫基本流程 2.2 网络爬虫的常用技术 2.3 网络爬虫常用的第三方库 3 简单爬虫示例 专栏导读 专栏订阅地址:https://blog.csdn.net/…

【MATLAB基础绘图第16棒】绘制热图(Heatmap)

热图(Heatmap) 热图的主要作用是直观展示重点研究对象的差异情况,多用于经济学与工学差异性分析之中。 heatmap函数创建热图 语法 hheatmap(tbl,xvar,yvar) hheatmap(tbl,xvar,yvar,ColorVariable,cvar) hheatmap(cdata) hheatmap(xvalue…

【Python常用函数】一文让你彻底掌握Python中的toad.quality函数

任何事情都是由量变到质变的过程,学习Python也不例外。只有把一个语言中的常用函数了如指掌了,才能在处理问题的过程中得心应手,快速地找到最优方案。本文和你一起来探索Python中的toad.quality函数,让你以最短的时间明白这个函数…

爬虫框架- feapder + 爬虫管理系统 - feaplat 的学习简记

文章目录 feapder 的使用feaplat 爬虫管理系统部署 feapder 的使用 feapder是一款上手简单,功能强大的Python爬虫框架 feapder 官方文档 文档写的很详细,可以直接上手。 基本命令: 创建爬虫项目 feapder create -p first-project创建爬虫 …

【Unity每日一记】Physics.Raycast 相关_Unity中的“X光射线”

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:uni…

【MySQL】如何使用Shared-memory协议(Windows)连接MySQL数据库

文章目录 【MySQL】如何使用Shared-memory协议(Windows)连接MySQL数据库连接MySQL的协议使用Shared-memory协议(Windows)连接MySQL步骤1:确认MySQL服务器已启用Shared-memory连接启动Shared-memory连接方法 步骤2:客户端使用shared-memory连接MySQL服务器…