各式各样的自注意力机制

对于图片来说,N是很大的,所以计算量会很大


下面这种方式是关注临近的

下面这个是关注的稍微远一点,中间跨几个:

下面的是设置几个special的token,让这几个token去收集global的information。

小孩子才做选择,上面三种一起上(多头注意力)



下面这种方法先把相近的query和key归到同一类里面:


上面这些方式都是人为设计的,下面是机器自己决定到底关注哪些重要部分,蓝色是1,灰色是0,通过另一个网络先得到一个的矩阵,但是这个矩阵里面的值都是连续的,需要经过一系列操作之后才能变成binary的mask。

有的研究发现,attention的矩阵是low rank的,它的column有很多重复的,所以attention的matrix可以不那么大,如右图所示

下面的做法是减少key的数目,选出代表性的key


下面这个图是原始的注意力计算过程:


虽然两者的结果相同,但是先计算K和Q,再乘以V;与V先与K相乘,再乘以Q这两个不同的计算顺序是计算量不同的:




上面的操作是把softmax省略了,下面加上softmax:






从上图可以看到,输出的的上标1只跟相关,剩下的部分不用重复计算:


总结来看是下面的图:



下面不同的论文有不同的拆解方式:

下面的attention matrix来源不是和,而是网络的参数(另一个角度):


本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 XR_Wang!






