多模态对话模型 Demo:https://vpgtrans.github.io/ 论文:https://arxiv.org/pdf/2305.01278.pdf 代码:https://github.com/VPGTrans/VPGTrans
![](https://image.jiqizhixin.com/uploads/editor/4c5922a5-cbd8-4ab5-907c-8528782682ec/640.png)
![](https://image.jiqizhixin.com/uploads/editor/613429f1-6078-44a6-8f52-66330ed04033/640.png)
![](https://image.jiqizhixin.com/uploads/editor/d142159f-b00a-4a54-8be2-ffa8bbec22e9/640.png)
![](https://image.jiqizhixin.com/uploads/editor/144bdf36-efc9-44fb-b275-fa8a37749cab/640.png)
![](https://image.jiqizhixin.com/uploads/editor/af0fc6b0-0a8e-402c-a8b5-7370b44fff44/640.png)
![](https://image.jiqizhixin.com/uploads/editor/f968f3c5-20cd-4f9e-9534-6d1d36816029/640.png)
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
最近的多模态(对话)大模型将基于文本的 ChatGPT 的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如 GPT-4、BLIP-2、Flamingo 等。但对于很多研究者来说,训练一个多模态 GPT 代价非常昂贵。本文来自新加坡国立大学和清华大学的研究者提出了一个名为 VPGTrans 框架,以极低成本训练高性能多模态大模型。