最近,有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像,还是能输入 3D 模型,目前只能靠猜。OpenAI CEO Sam Altman 随后否认了该截图的真实性,GPT4.5 的具体能力依然是一个谜。不过,在众多研究中,确实已经有大模型实现了多个模态同时处理,甚至连视频、3D 模型也囊括了进来。
论文地址:https://arxiv.org/pdf/2311.18799.pdf GitHub 地址:https://github.com/salesforce/LAVIS/
![图片](https://image.jiqizhixin.com/uploads/editor/62c2dd98-ec04-4a2c-aeb8-25751b219e30/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/beb33cde-5eba-46b9-b189-b0e1695e459d/640.png)