欢迎大家关注我的B站:
偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com)
本文为深蓝学院《BEV感知理论与实践》 的学习笔记
-
以图书馆看书举例
-
query:查询,感兴趣的东西
-
Key:索引,书的名字、目录
-
Value:值,书的详细内容
-
Transformer可以看作我们有自己感兴趣的方向,然后去图书馆里找,怎么找呢,肯定是看书的名字,翻一下目录来确定和你的兴趣是否匹配,如果匹配就翻开书挑里面感兴趣的东西进行学习
-
Attention也就是注意力是query和Key的点积,代表两者之间的相似度,相似肯定需要更加关注,然后通过Attention乘value也能更新value从而提取出value中更重要的内容
-
以Hi how are you 为例子,对这四个词进行编码,每个都得到一个256维的向量,可以理解为在256个维度对这个词的一些描述来表征这个词
-
然后他们分别对应的QKV通过同一批权重矩阵相乘得到
-
然后以Hi为例,他的query和别人的key点积得到Attention,再乘上别人的value得到在自己的value基础上可以更新的内容,然后Hi要和其他三个以及他自己都做这个操作
-
互相之间的QKV操作其实本质上是学习了更好的全局特征,通过别人来丰富自己
-
输入输出都是256维的向量,内部其实在相互之间学习,也称为self-Attention
-
self-Attention的本质是来自同一组embedding
-
这是矩阵的形式,核心就是得到了一个Attention矩阵
-
然后通过缩放更稳定,以及一个softmax得到了概率矩阵
-
self-Attention的目的是学习全局信息,找到自己的ID
-
multi-head:每个头独立关注输入的不同子空间,有助于学习多样化的特征,但维持整体输出维度不变
-
encoder和decoder如何交互
-
Query:来自 Decoder 当前时间步的隐藏状态。
-
Key 和 Value:来自 Encoder 的输出表示
-
-
三种Attention
-
encoder:自注意力机制
-
decoder:Masked 自注意力(屏蔽未来的词,确保自回归) → Encoder-Decoder 注意力
-
-
Padding mask
-
用于忽略填充位置,确保它们不影响注意力权重和损失计算
-
设置为负无穷的score使得softmax的概率为0
-