Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

最强开源多模态生成模型MM-Interleaved:首创特征同步器

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。

最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力,支持任意穿插的图文输入和输出,带来了多模态生成大模型的崭新突破。

图片

论文地址:https://arxiv.org/pdf/2401.10208.pdf

项目地址:https://github.com/OpenGVLab/MM-Interleaved

模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以轻松编写引人入胜的旅游日志和童话故事,准确理解机器人操作,就连分析电脑和手机的 GUI 界面、创作独特风格的精美图片都不在话下。甚至,它还能教你做菜,陪你玩游戏,成为随时听候指挥的个人助理!话不多说,直接看效果:

轻松理解复杂多模态上下文

MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文本答复,它既能算水果数学题:

图片

也能结合常识推理出 Logo 图像对应的公司并进行介绍:

图片

还能精确识别用红色圆圈标注出的手写文字内容:

图片

此外,模型也能直接理解通过序列图像表示的机器人动作:

图片

以及在 Minecraft 中如何建造围栏这样的游戏操作:

图片

甚至能结合上下文,手把手地教用户如何在手机 UI 界面上配置灰度:

图片

以及精准定位找到那架藏在后面的小飞机:

图片

脑洞全开生成不同风格图像

MM-Interleaved 模型同样可以出色地完成各种复杂的图像生成任务。比如根据用户提供的详细描述生成一张三角钢琴的剪影:

图片

或者当用户以多种形式指定所需生成的图像应当包含的物体或风格时,MM-Interleaved 框架也可轻松应对。

比如生成一张水彩风格的大象:

图片

按照狗的风格生成一张猫的画:

图片

在向日葵花丛里的一座木房子:

图片

以及在生成海浪图像时,根据上下文智能推断相应的风格。

图像生成兼顾空间一致性

更令人惊喜的是,MM-Interleaved 还具备根据输入的分割图和对应的文本描述生成图像的能力,并确保生成的图像与分割图在空间布局上保持一致。

图片

这一功能不仅展示了模型在图文生成任务中的卓越表现,同时也为用户提供了更加灵活和直观的操作体验。

自主生成图文并茂的文章

此外,只需提供一个简单的开头,MM-Interleaved 就能自主进行续写,生成语义连贯、图文并茂的文章,题材多样。

无论是关于一朵玫瑰的童话故事:

图片

教你制作苹果汁的教程指南:

图片

还是卡通动漫中的情节片段:

图片

MM-Interleaved 框架都展现出了卓越的创造力。这使得 MM-Interleaved 框架成为了一个无限创意的智能合作者,能够帮助用户轻松打造引人入胜的图文作品。

MM-Interleaved 致力于解决图文交错多模态大模型训练中的核心问题,通过深入研究提出了一种全新的端到端预训练框架。

基于 MM-Interleaved 训练的模型,在参数量更少、不使用私有数据的情况下,不仅在多个零样本多模态理解任务上表现优越,领先于国内外最新研究工作,如 Flamingo、Emu2 等。

还能进一步通过监督微调的方式,在视觉问答(VQA),图像描述(image caption)、指代理解(referring expression comprehension)、图生图(segment-to-image generation)、视觉故事生成(visual storytelling)等多个下游任务上取得更为优异的综合性能。

目前模型的预训练权重及相应代码实现均已在 GitHub 开源。

图片

多模态特征同步器携手全新端到端训练框架

图片

MM-Interleaved 提出了一种全新的端到端训练框架,专门面向图文交错数据。

该框架支持多尺度的图像特征作为输入,不对图像和文本的中间特征添加任何额外约束,而是直接采用预测下一个文本 token 或下一张图像的自监督训练目标,实现单阶段的统一预训练范式。

与以往方法相比,MM-Interleaved 不仅支持交错生成文本和图像,还能高效捕捉图像中更多的细节信息。

图片

此外,MM-Interleaved 的关键实现还包括一个通用的多模态特征同步器(Multi-modal Feature Synchronizer)。

该同步器能够动态注入多张高分辨率图像的细粒度特征到多模态大模型和图像解码器中,实现了对文本和图像的解码生成的同时进行跨模态的特征同步。

这一创新设计使得 MM-Interleaved 为多模态大模型领域的发展注入了新的活力。

多项任务性能领先

图片

图片

如表 1 和表 3 所示,MM-Interleaved 在零样本多模态理解和生成任务上均取得了卓越的性能。这一成就不仅证明了该框架的强大能力,也突显了其在应对多样化任务时的强大通用性。

图片
图片

表 2 和表 4 展现了 MM-Interleaved 在进行进一步微调后的实验结果,其在指代理解、基于分割图生成图像、图文交错生成等多个下游任务上的性能也十分优异。

这表明 MM-Interleaved 不仅在预训练阶段表现出色,而且在具体任务微调后依然能够保持领先地位,从而为多模态大模型的广泛应用提供了可靠的支持。

结论

MM-Interleaved 的问世标志着多模态大模型的发展朝着实现全面端到端的统一建模和训练迈出了关键一步。

这一框架的成功不但体现在其预训练阶段所展现的卓越性能,而且还体现在微调后在各个具体下游任务上的全面表现。

其独特的贡献不仅在于展示了强大的多模态处理能力,更为开源社区构建新一代多模态大模型开启了更为广阔的可能性。

MM-Interleaved 也为未来图文交错数据的处理提供了新的思路和工具,为实现更加智能、灵活的图文生成和理解奠定了坚实基础。

我们期待看到这一创新为更多领域相关应用带来更多惊喜。

产业MM-Interleaved多模态生成模型
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

视觉问答技术

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

图生成技术

根据给定信息信息生成图表。

推荐文章
暂无评论
暂无评论~