作者您好、打扰您了、还是想询问一下这个SSA和GLU这两个模块在GSAU模块上是怎么体现的。您是怎么区分门控机制和注意力机制的呢？感谢！！！ #28

tensor121 · 2024-12-16T08:40:25Z

No description provided.

tensor121 · 2024-12-16T09:03:31Z

还有就是对于门控的理解、您在GSAU中我看是直接经过一个逐通道卷积形成一个多通道空间注意力图然后和x相乘、这一步为什么看成了是一个门控机制、而不是一个注意力机制了。在MLKA中、也是通过同过X3、X5、X7去进行门控调节、这里为什么不能看成是一个注意力。再次感谢您之前的回复、您的项目让我学到了很多！！

icandle · 2024-12-16T16:42:10Z

简单点理解是这样的，对于SSA这种一阶注意力来说，y=x*a(x)，注意力通过对输入的空间/通道信息进行选择来增强/减弱某个区域的信号，可以看作对已有x的调整，而门控机制，比如说GLU为例，y=(wx+b)*σ(vx+c)，是为了能让模型能重新提取并筛选x中有用的信号，所以其实GSAU是这两者的组合也就是y=(wx+b)*(a(vx+c))，不同于GLU是线性只在通道纬度控制增加了空间维度的信息。

icandle · 2024-12-16T16:51:04Z

还有就是对于门控的理解、您在GSAU中我看是直接经过一个逐通道卷积形成一个多通道空间注意力图然后和x相乘、这一步为什么看成了是一个门控机制、而不是一个注意力机制了。在MLKA中、也是通过同过X3、X5、X7去进行门控调节、这里为什么不能看成是一个注意力。再次感谢您之前的回复、您的项目让我学到了很多！！

这里其实和GLU延伸到SwishGLU的思路一样本身我们有了GSAU，我们可以把这个当作一个门控去控制LKA的输入，也就是，y=(wx+b)*(a(vx+c))*(lka(zx+d)) 因为这个过程更接近于GLU的过程而不是注意力x*a(x)，所以不能简单的看作是注意力。不过确实因为本质上说GSAU和MLKA在形式上是统一的，可以把GSAU看作是一阶的GLU只用了一阶的DWConv，而MLKA是类似于二阶的SwishGLU用了二阶的LKA。

icandle mentioned this issue Dec 17, 2024

关于MLKA中的大核和self.LKA3(a_1)*self.X3(a_1)这个地方为什么叫做门控的问题。 #29

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

作者您好、打扰您了、还是想询问一下这个SSA和GLU这两个模块在GSAU模块上是怎么体现的。您是怎么区分门控机制和注意力机制的呢？感谢！！！ #28

作者您好、打扰您了、还是想询问一下这个SSA和GLU这两个模块在GSAU模块上是怎么体现的。您是怎么区分门控机制和注意力机制的呢？感谢！！！ #28

tensor121 commented Dec 16, 2024

tensor121 commented Dec 16, 2024

icandle commented Dec 16, 2024 •

edited

Loading

icandle commented Dec 16, 2024 •

edited

Loading

作者您好、打扰您了、还是想询问一下这个SSA和GLU这两个模块在GSAU模块上是怎么体现的。您是怎么区分门控机制和注意力机制的呢？感谢！！！ #28

作者您好、打扰您了、还是想询问一下这个SSA和GLU这两个模块在GSAU模块上是怎么体现的。您是怎么区分门控机制和注意力机制的呢？感谢！！！ #28

Comments

tensor121 commented Dec 16, 2024

tensor121 commented Dec 16, 2024

icandle commented Dec 16, 2024 • edited Loading

icandle commented Dec 16, 2024 • edited Loading

icandle commented Dec 16, 2024 •

edited

Loading

icandle commented Dec 16, 2024 •

edited

Loading