Skip to content

Commit

Permalink
Update 2024-10-21-多模态大模型.md
Browse files Browse the repository at this point in the history
  • Loading branch information
loredunk authored Oct 22, 2024
1 parent 4cd7576 commit fd1c6ce
Showing 1 changed file with 3 additions and 1 deletion.
4 changes: 3 additions & 1 deletion blog/_posts/2024-10-21-多模态大模型.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,9 +8,11 @@ excerpt_separator: <!--more-->
---

<div class="message">
多模态大模型是一个讲录音,图片,文字结合在一起的模型,端到端的训练,可能图片采用的是clip,语音采用的是whisper,大模型这一段有各种各样的,但是万变不离其宗,但是我们想要搞懂,多模态大模型是如何训练的,是一个非常有意思的事情,包括多模态理论上是可以做什么的?或者说多模态大模型能力的边界是什么?我决定从[Qwen2vl](https://arxiv.org/pdf/2409.12191)下手,当然这是一个很好的一个example,篇幅并不是很大,并且母语为中文来写的英文论文,中国人比较看得懂(笑。其次最近也有一些其他的工作陆续推出,比如[mini-omni2](https://arxiv.org/pdf/2410.11190),之前omini1的端到端是没有图片的识别,现在也支持了更多的模态,并且一些图片模态的也开始陆续支持声音的这一向量。
多模态大模型是一个讲录音,图片,文字结合在一起的模型,端到端的训练,可能图片采用的是clip,语音采用的是whisper,大模型这一段有各种各样的,但是万变不离其宗,但是我们想要搞懂,多模态大模型是如何训练的,是一个非常有意思的事情,包括多模态理论上是可以做什么的?或者说多模态大模型能力的边界是什么?我决定从下手,当然这是一个很好的一个example,篇幅并不是很大,并且母语为中文来写的英文论文,中国人比较看得懂(笑。其次最近也有一些其他的工作陆续推出,比如,之前omini1的端到端是没有图片的识别,现在也支持了更多的模态,并且一些图片模态的也开始陆续支持声音的这一向量。
</div>
<!--more-->

[Qwen2vl](https://arxiv.org/pdf/2409.12191) [mini-omni2](https://arxiv.org/pdf/2410.11190)
对于从Qwen2-vl,我想搞清楚三个问题:
1. 多模态模型是怎么训练的
2. 为什么图像能做OCR?token化图像,为什么不会被撕裂掉?
Expand Down

0 comments on commit fd1c6ce

Please sign in to comment.