【深度学习】Transformer,Self-Attention,Multi-Head Attention

news/2025/1/16 6:33:15/

必读文章: https://blog.csdn.net/qq_37541097/article/details/117691873

论文名:Attention Is All You Need

文章目录

  • 1、Self-Attention 自注意力机制
  • 2、Multi-Head Attention

1、Self-Attention 自注意力机制

在这里插入图片描述

Query(Q)表示当前时间步的输入信息,它与Key(K)进行点积操作,用于计算注意力权重。
Key(K)表示序列中所有时间步的信息,与Query(Q)进行点积操作,用于计算注意力权重。
Value(V)包含了序列中每个时间步的隐藏状态或特征表示,根据注意力权重对其进行加权求和,得到最终的上下文向量。

注意力机制计算过程:

  1. 计算注意力分数(Attention Scores)

    注意力分数表示查询Q与键K之间的相关性,计算公式为:

A t t e n t i o n S c o r e ( Q , K ) = Q ⋅ K ⊤ d k Attention Score(Q, K) = \frac{Q \cdot K^\top}{\sqrt{d_k}} AttentionScore(Q,K)=dk QK

其中,(d_k) 是查询和键的维度。

  1. 计算注意力权重(Attention Weights)

    通过对注意力分数应用softmax函数,将分数转换为注意力权重,使它们归一化并总和为1:

A t t e n t i o n W e i g h t ( Q , K ) = softmax ( A t t e n t i o n S c o r e ( Q , K ) ) Attention Weight(Q, K) = \text{softmax}(Attention Score(Q, K)) AttentionWeight(Q,K)=softmax(AttentionScore(Q,K))

  1. 计算加权值(Weighted Values)

    使用注意力权重对值V进行加权,得到加权值,计算公式如下:

W e i g h t e d V a l u e s ( Q , K , V ) = Attention Weight ( Q , K ) ⋅ V Weighted Values(Q, K, V) = \text{Attention Weight}(Q, K) \cdot V WeightedValues(Q,K,V)=Attention Weight(Q,K)V

在Transformer的编码器和解码器中,Q、K、V的定义稍有不同:

在编码器(Encoder)中:

  • 查询(Q):来自上一层编码器的输出。
  • 键(K):来自上一层编码器的输出。
  • 值(V):来自上一层编码器的输出。

在解码器(Decoder)中,与编码器不同的是,还会使用编码器的输出作为额外的键(K)和值(V):

  • 查询(Q):来自上一层解码器的输出。
  • 键(K):来自编码器的输出。
  • 值(V):来自编码器的输出。

2、Multi-Head Attention

Multi-Head Attention 是 Transformer 模型中的一种注意力机制,它扩展了普通的自注意力机制(Self-Attention)以捕获更丰富的上下文信息。

在 Multi-Head Attention 中,通过使用多组独立的注意力头(attention heads),可以从不同的表示子空间中学习到更多的关系。每个注意力头都有自己对应的 Q、K、V 矩阵,通过独立的线性映射将输入进行转换得到。然后对每个注意力头进行注意力计算,并将它们的输出进行拼接,最后再经过一个线性映射得到最终的输出。

具体而言,Multi-Head Attention 的计算过程如下:

在这里插入图片描述

使用多个注意力头可以让模型同时关注不同位置和表示子空间的信息,从而提升模型的表达能力和泛化性能。


http://www.ppmy.cn/news/998890.html

相关文章

《养育你内心的小孩》读书笔记 --关系,需要和爱

这本书是我最近经常会回去翻看的一本书,书里面针对反复的负面情绪以及关系中常见的疑难杂症,提出了这些背后自己内心真正的需求 希望自己能成为一个内心真正强大的人,这篇笔记将书中觉得很有感触的地方记录下来,希望自己在这个社…

无涯教程-Lua - for语句函数

for 循环是一种重复控制结构,可让您有效地编写需要执行特定次数的循环。 for loop - 语法 Lua编程语言中 for 循环的语法如下- for init,max/min value, increment dostatement(s) end 这是 for 循环中的控制流程- 首先执行 init 步骤,并且仅执行一…

游戏发烧友、直播、视频创作者推荐,性能怪兽NUC12SNKI7 蝰蛇峡谷

在学校上课的时候一般习惯带着电脑去教室,选用轻薄的办公本或者 Mac整天带着到处跑。但从校园跨入社会后突然发现办公场景慢慢从移动办公转为固定场所的办公,公司因为保密等原因不能带私人电脑进公司,在家用办公本性能又不够用,甚…

java的@Param引错包导致的问题

{ “msg”: “nested exception is org.apache.ibatis.binding.BindingException: Parameter ‘ids’ not found. Available parameters are [arg1, arg0, param1, param2]”, “code”: 500 } 错误的包: import io.lettuce.core.dynamic.annotation.Param;正确的包…

Redis的安装部署以及基本的使用

目录 一、Linux下直接安装Redis (1)下载Redis安装包 (2)安装GCC编译环境 (3)安装Redis (4)服务启动 (5)后台启动 二、使用Docker安装部署Redis &…

react-router细节补充

一、react-router-dom v5路由信息获取 HomeHead.jsx: import React from "react"; import {Link, withRouter, useHistory, useLocation, useRouteMatch} from react-router-dom import styled from "styled-components";const NavBox styled.nava {mar…

保修管理系统

保修管理系统密切关注IT资产的保修信息,以便在发生任何故障或损坏时,供应商可以及时更换和修复任何IT硬件。自动化保修管理软件跟踪各种供应商提供的维修和服务期限的有效性,以便任何硬件都可以在保修到期之前升级,从而降低成本并…

数学建模体系

1评价类 主观求权重:层次分析法客观求权重:TOPSIS综合评价:典型相关分析 2预测插值算法拟合多元回归分析时间序列分析、ARCH和garch模型岭回归和lasso回归 3关系相关系数典型相关分析多元回归分析灰色关联分析 4图最短路径:迪杰斯…