We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Lightning-AI/lit-llama#350
我们当前的 LoRA 实现仅将其应用于 qv 计算.但是,最近的趋势表明,将其应用于其他地方可以提高性能。
例如,QLoRA论文报告:
如图 2 所示,在 Alpaca 上进行 LLaMA 7B 微调,我们发现最关键的 LoRA 超参数是总共使用了多少个 LoRA 适配器,并且所有线性变压器块层上的 LoRA 都需要匹配完整的微调性能
我看到其他在线从业者也将其应用于 和 .但我没有任何消息来源可以引用关于这是更好还是更糟lm_headMLP 在LoRA论文的第7.1节中,作者比较了具有较高等级的较少的LoRA层与具有较小等级的更多层,并发现尽管排名较小,但更多的层获胜。 当然,这并不一定意味着在所有条件相同的情况下,LoRA 层越多越好, 但这是我想到的最好的.
The text was updated successfully, but these errors were encountered:
No branches or pull requests
Lightning-AI/lit-llama#350
我们当前的 LoRA 实现仅将其应用于 qv 计算.但是,最近的趋势表明,将其应用于其他地方可以提高性能。
例如,QLoRA论文报告:
如图 2 所示,在 Alpaca 上进行 LLaMA 7B 微调,我们发现最关键的 LoRA 超参数是总共使用了多少个 LoRA 适配器,并且所有线性变压器块层上的 LoRA 都需要匹配完整的微调性能
我看到其他在线从业者也将其应用于 和 .但我没有任何消息来源可以引用关于这是更好还是更糟lm_headMLP
在LoRA论文的第7.1节中,作者比较了具有较高等级的较少的LoRA层与具有较小等级的更多层,并发现尽管排名较小,但更多的层获胜。
当然,这并不一定意味着在所有条件相同的情况下,LoRA 层越多越好, 但这是我想到的最好的.
The text was updated successfully, but these errors were encountered: