Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

作者您好、打扰您了、还是想询问一下这个SSA和GLU这两个模块在GSAU模块上是怎么体现的。您是怎么区分门控机制和注意力机制的呢?感谢!!! #28

Open
tensor121 opened this issue Dec 16, 2024 · 3 comments

Comments

@tensor121
Copy link

No description provided.

@tensor121
Copy link
Author

还有就是对于门控的理解、您在GSAU中我看是直接经过一个逐通道卷积形成一个多通道空间注意力图然后和x相乘、这一步为什么看成了是一个门控机制、而不是一个注意力机制了。在MLKA中、也是通过同过X3、X5、X7去进行门控调节、这里为什么不能看成是一个注意力。再次感谢您之前的回复、您的项目让我学到了很多!!

@icandle
Copy link
Owner

icandle commented Dec 16, 2024

简单点理解是这样的,对于SSA这种一阶注意力来说,y=x*a(x),注意力通过对输入的空间/通道信息进行选择来增强/减弱某个区域的信号,可以看作对已有x的调整,而门控机制,比如说GLU为例,y=(wx+b)*σ(vx+c),是为了能让模型能重新提取并筛选x中有用的信号,所以其实GSAU是这两者的组合也就是y=(wx+b)*(a(vx+c)),不同于GLU是线性只在通道纬度控制增加了空间维度的信息。

@icandle
Copy link
Owner

icandle commented Dec 16, 2024

还有就是对于门控的理解、您在GSAU中我看是直接经过一个逐通道卷积形成一个多通道空间注意力图然后和x相乘、这一步为什么看成了是一个门控机制、而不是一个注意力机制了。在MLKA中、也是通过同过X3、X5、X7去进行门控调节、这里为什么不能看成是一个注意力。再次感谢您之前的回复、您的项目让我学到了很多!!

这里其实和GLU延伸到SwishGLU的思路一样本身我们有了GSAU,我们可以把这个当作一个门控去控制LKA的输入,也就是,y=(wx+b)*(a(vx+c))*(lka(zx+d)) 因为这个过程更接近于GLU的过程而不是注意力x*a(x),所以不能简单的看作是注意力。不过确实因为本质上说GSAU和MLKA在形式上是统一的,可以把GSAU看作是一阶的GLU只用了一阶的DWConv,而MLKA是类似于二阶的SwishGLU用了二阶的LKA。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants