所以创新点是发现文本编码器也需要训练？ #3

Baboom-l · 2025-01-02T14:43:57Z

从消融实验来看只是在文本编码器上尝试了不同的微调方法，而且得到的实验现象和YOLO world的结果完全相反，不知道你们有没有注意到这点。你们的实验表明不管什么微调方式，解冻clip文本编码器效果更好，而YOLO world相反

whuyyc · 2025-01-02T15:00:55Z

我觉得将多模态模型引入owod，由此训练“unknown"的wildcard实现unknown class的recognition也是挺好的创新吧。
文中说是可以省去owod中的Incremental learning过程，因为可以只更新known class和unknown各自的wildcard，但不知道这个做法跟保存不同的class mean vector的最近邻分类器有什么优势，感觉只是feature space的不同，一个是text embedding，一个是logits，一点拙见

leonnil · 2025-01-02T18:38:45Z

感谢您的关注。值得注意的是，在YOLO-World中作者只使用Objects365数据集对文本编码器进行了微调，而在我们的方法中我们使用所有的预训练数据（Objects365和GoldG），具有相对丰富的信息，这可能是总体性能提升的原因之一。同时我们观察到使用像YOLO-World一样的全量微调方法仍然会使得模型的泛化能力降低（即APr下降严重），而使用LoRA等参数微调方法可以有效改善这一点。如果计算资源允许，我们将会在未来工作中做更加全面的分析，谢谢。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

所以创新点是发现文本编码器也需要训练？ #3

所以创新点是发现文本编码器也需要训练？ #3

Baboom-l commented Jan 2, 2025

whuyyc commented Jan 2, 2025

leonnil commented Jan 2, 2025

所以创新点是发现文本编码器也需要训练？ #3

所以创新点是发现文本编码器也需要训练？ #3

Comments

Baboom-l commented Jan 2, 2025

whuyyc commented Jan 2, 2025

leonnil commented Jan 2, 2025