Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

所以创新点是发现文本编码器也需要训练? #3

Open
Baboom-l opened this issue Jan 2, 2025 · 2 comments
Open

所以创新点是发现文本编码器也需要训练? #3

Baboom-l opened this issue Jan 2, 2025 · 2 comments

Comments

@Baboom-l
Copy link

Baboom-l commented Jan 2, 2025

从消融实验来看只是在文本编码器上尝试了不同的微调方法,而且得到的实验现象和YOLO world的结果完全相反,不知道你们有没有注意到这点。你们的实验表明不管什么微调方式,解冻clip文本编码器效果更好,而YOLO world相反

@whuyyc
Copy link

whuyyc commented Jan 2, 2025

我觉得将多模态模型引入owod,由此训练“unknown"的wildcard实现unknown class的recognition也是挺好的创新吧。
文中说是可以省去owod中的Incremental learning过程,因为可以只更新known class和unknown各自的wildcard,但不知道这个做法跟保存不同的class mean vector的最近邻分类器有什么优势,感觉只是feature space的不同,一个是text embedding,一个是logits,一点拙见

@leonnil
Copy link
Contributor

leonnil commented Jan 2, 2025

感谢您的关注。值得注意的是,在YOLO-World中作者只使用Objects365数据集对文本编码器进行了微调,而在我们的方法中我们使用所有的预训练数据(Objects365和GoldG),具有相对丰富的信息,这可能是总体性能提升的原因之一。同时我们观察到使用像YOLO-World一样的全量微调方法仍然会使得模型的泛化能力降低(即APr下降严重),而使用LoRA等参数微调方法可以有效改善这一点。如果计算资源允许,我们将会在未来工作中做更加全面的分析,谢谢。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants