各式各样的自注意力机制

发表于2022-12-12|更新于2022-12-12|研究生

|字数总计:408|阅读时长:1分钟|阅读量:

对于图片来说，N是很大的，所以计算量会很大

下面这种方式是关注临近的

下面这个是关注的稍微远一点，中间跨几个：

下面的是设置几个special的token，让这几个token去收集global的information。

小孩子才做选择，上面三种一起上（多头注意力）

下面这种方法先把相近的query和key归到同一类里面：

上面这些方式都是人为设计的，下面是机器自己决定到底关注哪些重要部分，蓝色是1，灰色是0，通过另一个网络先得到一个 $N*N$ 的矩阵，但是这个矩阵里面的值都是连续的，需要经过一系列操作之后才能变成binary的mask。

有的研究发现，attention的矩阵是low rank的，它的column有很多重复的，所以attention的matrix可以不那么大，如右图所示

下面的做法是减少key的数目，选出代表性的key

下面这个图是原始的注意力计算过程：

虽然两者的结果相同，但是先计算K和Q，再乘以V；与V先与K相乘，再乘以Q这两个不同的计算顺序是计算量不同的：

上面的操作是把softmax省略了，下面加上softmax：

从上图可以看到，输出的 $b^1$ 的上标1只跟 $q^1$ 相关，剩下的部分不用重复计算：

总结来看是下面的图：

下面不同的论文有不同的拆解方式：

下面的attention matrix来源不是 $q$ 和 $v$ ，而是网络的参数（另一个角度）：

文章作者: XR_Wang

文章链接: http://example.com/2022/12/12/%E5%90%84%E5%BC%8F%E5%90%84%E6%A0%B7%E7%9A%84%E8%87%AA%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 XR_Wang！

注意力机制