通过动态图-通俗易懂地了解自注意力机制

news/2024/11/29 13:42:24/

BERT、RoBERTa、ALBERT、SpanBERT、DistilBERT、SesameBERT、SemBERT、MobileBERT、TinyBERT和CamemBERT的共同点是什么?答案并不是“ BERT”🤭。

而是“自注意力”🤗。我们不仅在讨论承载“ BERT” 的架构,更准确地说是基于 Transformer 的架构。基于 Transformer 的架构主要用于对语言理解任务进行建模,避免使用神经网络中的递归,而是完全信任自注意力在输入和输出之间绘制全局依赖性的机制。但是,这背后的数学原理是什么?

这就是我们今天要探讨的。这篇文章的主要内容是带你了解自注意力模块中涉及的数学运算。读完这篇文章,你应该就能够从零开始编写一个自注意力模块了。

本文的目的不是要解释自注意力模块中的不同数字表示形式和数学运算,也不是为了证明Transfomer 中自注意的原因和精确程度(我相信已经有很多相关资料了)。请注意,本文也没有详细介绍注意力和自注意力之间的区别。


内容大纲

  • 图解
  • 代码
  • 拓展到 Transformer

1. 什么是自注意力?

你可能会想,自注意力是否类似于注意力,答案是肯定的!它们从根本上来说概念和数学运算很多都是相通的。

自注意模块接收 n 个输入,并返回 n 个输出。这个模块会发生什么?用外行的话说,自注意力机制让每个输入都会彼此交互(自),然后找到它们应该更加关注的输入(注意力)。自注意力模块的输出是这些交互的聚合和注意力分数。

2. 图解

图解分为以下步骤:

  1. 准备输入

  2. 初始化权重

  3. 推导键(key)、查询(query)和值(value)

  4. 计算输入 1 的注意力得分

  5. 计算 softmax

  6. 将分数与值相乘

  7. 总和加权值以获得输出 1

  8. 对输入 2 和输入 3 重复步骤4–7

注意:实际上,数学运算是矢量化的,即所有输入都经过数学运算(即,变为embedding)。我们稍后会在“代码”部分中看到这一点。

步骤1:准备输入

图 1.1:准备输入

在本教程中,我们从 3 个输入开始,每个输入的尺寸为 4。

  1. 输入1[1,0,1,0]
  2. 输入2[0,2,0,2]
  3. 输入3[1,1,1,1]

步骤2:初始化权重

每个输入必须具有三个表示形式(请参见下图)。这些表示形式称为键(橙色),查询(红色)和值(紫色)。对于此示例,让我们假设这些表示的尺寸为 3。因为每个输入的尺寸为 4,这意味着每组权重都必须为 4×3。

注意:我们稍后将看到值的维数也是输出的维数。      

图 1.2:从每个输入得出键,查询和值表示

为了获得这些表示形式,每个输入(绿色)都将与一组键的权重,一组查询的权重(我知道这不是正确的拼写)和一组值的权重相乘。在我们的示例中,我们如下“初始化”三组权重。

键的权重:

  1. [[001],
  2. [110],
  3. [010],
  4. [110]]

查询权重:

  1. [[101],
  2. [100],
  3. [001],
  4. [011]]

值的权重:

  1. [[020],
  2. [030],
  3. [103],
  4. [110]]

注意:在神经网络设置中,这些权重通常是小数,使用适当的随机分布(如高斯,Xavier和Kaiming分布)随机初始化。

步骤3:派生键、查询和值

现在我们有了三组权重,让我们实际获取每个输入的键、查询和值表示形式。

输入 1 的键表示:

  1. [0,0,1]
  2. [1,0,1,0] x [1,1,0] = [0,1,1]
  3. [0,1,0]
  4. [1,1,0]

使用相同的权重集获取输入 2 的键表示:

  1. [0,0,1]
  2. [0,2,0,2] x [1,1,0] = [4,4,0]
  3. [0,1,0]
  4. [1,1,0]

使用相同的权重集获取输入 3 的键表示:

  1. [0,0,1]
  2. [1,1,1,1] x [1,1,0] = [2,3,1]
  3. [0,1,0]
  4. [1,1,0]

一种更快的方法是对上述操作进行矢量化处理:

  1. [0,0,1]
  2. [1,0,1,0] [1,1,0] [0,1,1]
  3. [0,2,0,2] x [0,1,0] = [4 ,4,0]
  4. [1,1,1,1] [1,1,0] [2,3,1]
图 1.3a:每个输入的派生键表示

进行同样的操作,以获取每个输入的值表示形式:

  1. [0,2,0]
  2. [1,0,1,0] [0,3,0] [1,2,3]
  3. [0,2,0,2] x [1,0,3] = [2 ,8,0]
  4. [1,1,1,1] [1,1,0] [2,6,3]
图 1.3b:每个输入的派生值表示

最后是查询表示形式:

  1. [1,0,1]
  2. [1,0,1,0] [1,0,0] [1,0,2]
  3. [0,2,0,2] x [0,0,1] = [2 ,2,2]
  4. [1,1,1,1] [0,1,1] [2,1,3]
图 1.3c:从每个输入中派生查询表示

注意:实际上,可以将偏差向量添加到矩阵乘法的乘积中。

步骤4:计算输入 1 的注意力得分

图 1.4:根据查询 1 计算注意力得分(蓝色)

为了获得注意力得分,我们首先在输入 1 的查询(红色)与所有键(橙色)(包括其自身)之间取一个点积。由于有 3 个关键表示(因为我们有3个输入),因此我们获得 3 个注意力得分(蓝色)。

  1. [0,4,2]
  2. [1,0,2] x [1,4,3] = [2,4,4]
  3. [1,0,1]

注意,我们仅使用输入 1 的查询。稍后,我们将对其他查询重复相同的步骤。

注意:以上操作被称为点积注意力(dot product attention),这是众多评分函数中的一个,其它评分函数还包括扩展式点积和 additive/concat,请参阅《图解神经机器翻译中的注意力机制》。

步骤 5:计算 softmax

图 1.5:Softmax 注意分数(蓝色)

在所有注意力得分中使用 softmax(蓝色)。

softmax([244])= [0.0,0.5,0.5]

步骤6:将分数乘以值

图 1.6:从乘数值(紫色)和分数(蓝色)得出的加权值表示(黄色)

每个经过 softmax 的输入的最大注意力得分(蓝色)乘以其相应的值(紫色),得到 3 个对齐向量(alignment vector, 黄色)。在本教程中,我们将它们称为加权值(weighted value)。

  1. 10.0 * [1、2、3] = [0.0、0.0、0.0]
  2. 20.5 * [2、8、0] = [1.0、4.0、0.0]
  3. 30.5 * [2、6、3] = [1.0、3.0、1.5]

步骤7:求和加权值以获得输出 1

图 1.7:将所有加权值相加(黄色)以得出输出 1(深绿色)

取所有加权值(黄色)并将它们按元素求和:

  1. [0.0,0.0,0.0]
  2. + [1.0,4.0,0.0]
  3. + [1.0,3.0,1.5]
  4. -----------------
  5. = [2.0,7.0,1.5]

所得向量[2.0、7.0、1.5](深绿色)为输出1,该输出基于输入1与所有其他键(包括其自身)交互的查询表示形式。

步骤 8:重复输入 2 和输入 3

既然我们已经完成了输出 1,我们将对输出 2 和输出 3 重复步骤 4 至 7。我相信你自己就可以操作👍🏼。

 

图 1.8:对输入 2 和输入 3 重复前面的步骤

注意:由于点积分数功能,查询和键的维必须始终相同。但是,值的维数可能不同于 查询和键。结果输出将遵循值的维度。

3. 代码

这是PyTorch🤗代码(https://pytorch.org/),PyTorch🤗是流行的 Python 深度学习框架。为了方便使用在以下代码段中索引中的@operator API、.T 和 None,请确保你使用的是Python≥3.6 和 PyTorch 1.3.1。只需将它们复制并粘贴到 Python / IPython REPL 或 Jupyter Notebook 中即可。

步骤1:准备输入

  1. import torch
  2. x = [
  3. [1, 0, 1, 0], # Input 1
  4. [0, 2, 0, 2], # Input 2
  5. [1, 1, 1, 1] # Input 3
  6. ]
  7. x = torch.tensor(x, dtype=torch.float32)

步骤2:初始化权重

  1. w_key = [
  2. [0, 0, 1],
  3. [1, 1, 0],
  4. [0, 1, 0],
  5. [1, 1, 0]
  6. ]
  7. w_query = [
  8. [1, 0, 1],
  9. [1, 0, 0],
  10. [0, 0, 1],
  11. [0, 1, 1]
  12. ]
  13. w_value = [
  14. [0, 2, 0],
  15. [0, 3, 0],
  16. [1, 0, 3],
  17. [1, 1, 0]
  18. ]
  19. w_key = torch.tensor(w_key, dtype=torch.float32)
  20. w_query = torch.tensor(w_query, dtype=torch.float32)
  21. w_value = torch.tensor(w_value, dtype=torch.float32)

步骤3:派生键,查询和值

  1. keys = x @ w_key
  2. querys = x @ w_query
  3. values = x @ w_value
  4. print(keys)
  5. # tensor([[0., 1., 1.],
  6. # [4., 4., 0.],
  7. # [2., 3., 1.]])
  8. print(querys)
  9. # tensor([[1., 0., 2.],
  10. # [2., 2., 2.],
  11. # [2., 1., 3.]])
  12. print(values)
  13. # tensor([[1., 2., 3.],
  14. # [2., 8., 0.],
  15. # [2., 6., 3.]

步骤4:计算注意力分数

  1. attn_scores = querys @ keys.T
  2. # tensor([[ 2., 4., 4.], # attention scores from Query 1
  3. # [ 4., 16., 12.], # attention scores from Query 2
  4. # [ 4., 12., 10.]]) # attention scores from Query 3

步骤5:计算softmax

  1. from torch.nn.functional import softmax
  2. attn_scores_softmax = softmax(attn_scores, dim=-1)
  3. # tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
  4. # [6.0337e-06, 9.8201e-01, 1.7986e-02],
  5. # [2.9539e-04, 8.8054e-01, 1.1917e-01]])
  6. # For readability, approximate the above as follows
  7. attn_scores_softmax = [
  8. [0.0, 0.5, 0.5],
  9. [0.0, 1.0, 0.0],
  10. [0.0, 0.9, 0.1]
  11. ]
  12. attn_scores_softmax = torch.tensor(attn_scores_softmax)

步骤6:将分数乘以值

  1. weighted_values = values[:,None] * attn_scores_softmax.T[:,:,None]
  2. # tensor([[[0.0000, 0.0000, 0.0000],
  3. # [0.0000, 0.0000, 0.0000],
  4. # [0.0000, 0.0000, 0.0000]],
  5. #
  6. # [[1.0000, 4.0000, 0.0000],
  7. # [2.0000, 8.0000, 0.0000],
  8. # [1.8000, 7.2000, 0.0000]],
  9. #
  10. # [[1.0000, 3.0000, 1.5000],
  11. # [0.0000, 0.0000, 0.0000],
  12. # [0.2000, 0.6000, 0.3000]]])

步骤7:求和加权值

  1. outputs = weighted_values.sum(dim=0)
  2. # tensor([[2.0000, 7.0000, 1.5000], # Output 1
  3. # [2.0000, 8.0000, 0.0000], # Output 2
  4. # [2.0000, 7.8000, 0.3000]]) # Output 3

注意:PyTorch 为此提供了一个 API nn.MultiheadAttention。但是,此 API 要求你输入键、查询并估算 PyTorch 张量。此外,该模块的输出经过线性变换。

 


http://www.ppmy.cn/news/526736.html

相关文章

动图图解Transformer及其工程领域应用(NLP外)

博议便览: 原理分析: 《中文自然语言处理Transformer模型(一) 》(1—GitHub ipynb版 ; 2—nbviewer版) 《预训练语言模型--transformer》 《保姆级教程:硬核图解Transformer》 《nlp中的Attention注意力机制…

使用力动自助建站系统,如何开通对应的支付宝支付?

自助建站系统支付,自助建站系统加入支付宝,如何接入支付宝? 力动自助建站系统主要使用了支付宝进行在线支付,您要使用本系统建立自己的网站必须要自己去支付宝官方申请开通支付应用。 申请地址是支付宝开放平台:open…

2.1 Transformer相关原理-图解Attention

目录 图解Attention1. Seq2seq模型1.1 细节2. Attention讲解 致谢 图解Attention 讲到Attention的由来,就要提到序列到序列(seq2seq)模型和神经机器翻译。下面介绍下Seq2seq模型。 1. Seq2seq模型 序列到序列(seq2seq&#xff…

记一次财经直播系统渗透

1、网站搜索关键词: 牛昆财经直播系统 牛昆喊单直播系统 牛昆微交易系统开发 2、sql注入漏洞 下载源代码进行分析,对站点进行本地搭建,测试sql注入点如下: 位置: sys\updsd.php 参数: $_GET[id] sql注入POC: ?…

MATLAB算法实战应用案例精讲-【自动驾驶】自动驾驶中的自动泊车功能

目录 前言 什么是“自动泊车”? 有什么用? 有什么优点? 发展历程

FreeEIM 与飞鸽传书的区别

许多人习惯把 FreeEIM 叫做 飞鸽传书2008版。其实 FreeEIM 并不是古老的 飞鸽传书,传说中,有一款功能强大即时通讯软件,在软件界非常出名,人们在他的统治下,一直维持着高效的工作效率,在人们心中留下永不磨…

FreeEIM 在盛大的开幕仪式结束之后

相较与往年的大主题是一个质的超越。 FreeEIM 在盛大的开幕仪式结束之后,李德毅院士的位置服务课题将大会带入高潮,迎来了到场嘉宾的热烈的掌声。在演讲嘉宾的演讲中,深切感受到了云计算的强大,以及云计算在生后中可以给社会带来…

FreeEIM 2013 SDK 部分源码

 FreeEIM 局域网聊天工具是一款全新的整合式企业即时通讯系统,它与外部互联网彻底隔绝,为企业提供各种基于内部网络的沟通方法,如语音通讯、文件传输、消息发送等。部署 FreeEIM,IT 专业人员只需简单地在…