怎么做注意力

对象：我（查询对象Q），这张图（被查询对象V）
面对一张图，人会判断哪些东西重要哪些东西不重要（计算Q和V中事物的重要度=相似度计算=Q和V中哪些东西更接近）

如何计算Q和K的相似度？→用点乘的方式,点乘其实就是内积cos

Q是查询对象， $K=K_1,K_2,\cdots,K_n$ 是要查询的事物key

通过点乘的方法计算Q和K里的每一个事物的相似度，就可以拿到Q和 $k_1$ 的相似值 $s_1$ ，Q和 $k_2$ 的相似值 $s_2$ ，Q和 $k_n$ 的相似值 $s_n$

做一层 $softmax(s_1,s_2,\cdots,s_n)$ 就可以得到概率 $(a_1,a_2,\cdots,a_n)$

因此就可以找到哪个对Q而言更重要

在上图中，Query表示查询对象，Key表示被查询对象，F(Q,K)表示Q和K进行内积，得到相似度值s，然后做softmax归一化，得到四个概率 $a_1$ , $a_2$ , $a_3$ , $a_4$ 。
还要进行汇总，当使用Q查询结束后，Q已经失去了它的使用价值（在阶段3失去了使用价值），最终还是要拿到该图片的，只不过这张图片多了一些信息（多了一些对于我而言什么信息更重要，什么信息不重要），如下发的热力图，在红色部分是重要的信息。

怎么注意这些重要的部分？

$(a_1,a_2,\cdots,a_n)*(v_1,v_2,\cdots,v_n)=(a_1*v_1,a_2*v_2,\cdots,a_n*v_n)=(a_1*v_1+a_2*v_2+\cdots+a_n*v_n)$ =V’得到一个新的V’，新的V中包含了哪些更重要，哪些不重要的信息在里面。
以前的V= $(v_1,v_2,\cdots,v_n)$
新的V’= $(a_1*v_1,a_2*v_2,\cdots,a_n*v_n)$

然后用V’代替V

一般K=V，在transformer里。K!=V也是可以的，但是K和V一定存在某种联系，这样Q和K点乘才能指导V哪些重要，哪些不重要。
在这里插入图片描述

为什么在Attention公式中有一个除 $\sqrt{d_k}$
因为经过softmax得到的概率，如果输入之间的差额越大，得到的概率越离谱
如输入是51,49，得到的概率可能是0.51,0.49
如果输入是80,20，得到的概率可能是0.99999999，0.00000001
现在多一个除 $\sqrt{d_k}$ ，就可以把差额缩小