We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
从消融实验来看只是在文本编码器上尝试了不同的微调方法,而且得到的实验现象和YOLO world的结果完全相反,不知道你们有没有注意到这点。你们的实验表明不管什么微调方式,解冻clip文本编码器效果更好,而YOLO world相反
The text was updated successfully, but these errors were encountered:
我觉得将多模态模型引入owod,由此训练“unknown"的wildcard实现unknown class的recognition也是挺好的创新吧。 文中说是可以省去owod中的Incremental learning过程,因为可以只更新known class和unknown各自的wildcard,但不知道这个做法跟保存不同的class mean vector的最近邻分类器有什么优势,感觉只是feature space的不同,一个是text embedding,一个是logits,一点拙见
Sorry, something went wrong.
感谢您的关注。值得注意的是,在YOLO-World中作者只使用Objects365数据集对文本编码器进行了微调,而在我们的方法中我们使用所有的预训练数据(Objects365和GoldG),具有相对丰富的信息,这可能是总体性能提升的原因之一。同时我们观察到使用像YOLO-World一样的全量微调方法仍然会使得模型的泛化能力降低(即APr下降严重),而使用LoRA等参数微调方法可以有效改善这一点。如果计算资源允许,我们将会在未来工作中做更加全面的分析,谢谢。
No branches or pull requests
从消融实验来看只是在文本编码器上尝试了不同的微调方法,而且得到的实验现象和YOLO world的结果完全相反,不知道你们有没有注意到这点。你们的实验表明不管什么微调方式,解冻clip文本编码器效果更好,而YOLO world相反
The text was updated successfully, but these errors were encountered: