Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了

LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。


ChatGPT问世以来,大语言模型(LLM)实现了跳跃式发展,基于自然语言进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大语言模型(MLLM)研究大多数闭源,对高校和大多数研究机构的同学们并不友好。而且,大语言模型受限于训练知识,往往缺乏时事认知、复杂推理能力,这就如同只能快速问答,没有“深度思考”能力。AI Agent人工智能代理)则是解决这一问题的关键,它赋予LLM深度思考、复杂决策的能力,使LLM向自主性、反应性、积极性和社交能力特征的智能实体发展。我们相信,AI Agent领域将会诞生更多改变生活工作方式的成果,是大语言模型多模态大模型的重要进化方向。

来自北航、复旦大学、悉尼大学、香港中文大学(深圳)等高校与上海人工智能实验室的学者共同推出多模态语言模型最早的开源社区之一 ——LAMM(Language-Assisted Multi-modal Model)。我们旨在将 LAMM 建设成一个不断发展的社区生态,支持 MLLM 训练和评测、MLLM 驱动的 Agent 等方向的研究。作为多模态大语言模型领域最早的开源项目之一,LAMM 的目标是建立一个开放的研究社区生态,让每个研究和开发人员都可以基于此开展研究,共同建设开源社区。

图片

  • 项目主页:https://openlamm.github.io
  • 代码地址:https://www.github.com/OpenGVLab/LAMM

在这里,你可以 :

  • 以最小的计算资源成本训练和评估 MLLM,仅需 3090 或 V100,轻松开始 MLLM 的训练和评测。
  • 构建基于 MLLM 的具身智能 Agent,能够使用机器人或游戏模拟器定义任务并生成数据。
  • 在几乎任何专业领域扩展 MLLM 应用。

开源框架

LAMM 代码库实现了统一的数据集格式、组件式模型设计、一键式分布式训练,方便用户启动和实现自己专属的多模态语言模型

图片

  • 使用标准数据集格式兼容不同指令微调数据集。LAMM 定义了标准化多模态指令微调数据格式,可以多模态指令微调常用的 LLaVA、LAMM、ShareGPT4V 等数据集可以直接无缝适配,一键启动。
  • 组件式搭建模型流程,方便地更新和修改模型架构。LAMM 中模型以视觉编码器(Vision Encoder)、特征映射器(Feature Projector)、语言模型(LLM)为主要组件。目前 LAMM 已经支持 Image、Point Cloud 等模态编码器和 LLaMA/LLaMA2 等预训练语言模型,用户可以自由选择适合需求的模块搭建 pipeline,实现自己专属的 MLLM。
  • 以最小计算资源训练和评测 MLLM。LAMM Repo 集成了 Deepspeed、LightLLM、flash attention 等加速框架,将训练成本大幅优化。目前已经支持在 4 张 RTX3090 或更新设备上微调 7B 的语言模型。同时 LAMM 也在不断跟进新的大语言模型和优化框架,以推动多模态领域的发展。
  • 基于 MLLM 构建具身智能 AI Agent。使用机器人或模拟器定义目标任务并生成相应指令数据后,LAMM 支持的 MLLM 可以作为强大的 AI Agent 进行决策和分析。

更多详情请参考项目主页。

多模态大语言模型训练与评测 

近期大量工作展现了多模态大模型 (MLLM) 在视觉内容理解和交互上的能力,并且体现出了解决更为复杂的下游任务应用的能力。除了常见的图片输入,LAMM 目前还支持点云等视觉模态输入,用户也可以根据自己的需求加入新的编码器。同时,LAMM 支持 PEFT 包进行高效微调,也引入了 flash attention、xformer 等工具进一步优化模型计算成本,使得用户能够用尽可能低的成本训练 MLLM。面对复杂的多任务学习,LAMM 也支持 MoE 等策略统一多组微调参数,进一步提高模型多任务能力,实现更全能的 MLLM。

然而,由于缺乏一个标准化的全面评估框架,这些模型的能力和局限性尚未被全面探索,我们仍然无法确认这些模型的能力究竟如何,他们究竟能做什么事情。现有的基准测试工作主要集中于为多模态大模型构建多模态评估数据集,或仅评估了一部分的视觉能力维度,或尝试建立了一个评测框架但缺乏可扩展性和全面性,对各个模型的全面评估和不同模型间进行公平可靠的对比仍然具有挑战性。LAMM 实现了一种具有高度可扩展性和灵活性的评测框架,旨在为多模态大模型提供一种可靠的、全面的评估。

详情可参考 https://openlamm.github.io/paper_list/ChEF

图片

一键式组合式多模态语言模型评测框架

基于 LAMM 框架的多模态模型能力部分展示如下:

基于 2D 图像内容的问答:

图片

图片

基于 3D 点云的视觉问答

图片

多模态大语言模型驱动的具身 Agent

近期大量工作借助大语言模型 (LLM) 的强大推理规划能力来构建 Agent,例如 Minecraft 中的 Voyager 和 GITM 都借助 LLM 和文本记忆来规划智能体的行动,但是这些工作都假定智能体可以在规划决策的时候获取所有正确的环境感知信息,直接跳过感知阶段,忽视了实时的第一人称视角图片对具身智能体规划自身行动的影响,这在现实生活中也是不可能存在的。

为了让具身智能体在开放世界复杂环境中更好地感知环境,我们提出了以MLLM驱动的具身智能体MP5,其特点在于具备视觉感知和主动感知能力。视觉感知模块(模型主要架构为LAMM)允许MP5解决以前从未见过的任务,主动感知可以主动获取环境信息,以执行合适动作。最终 MP5 具有开放感知能力,并能根据不同的目的提供量身定制的感知结果,可以完成长时序及复杂环境信息任务。

下面是 MP5 在 Minecraft 这一开放世界中完成「在晴天且光线充足的情况下,找到一头在平原且靠近水附近有草的猪」这一需要复杂环境信息的任务的演示过程。
总结

基于 MLLM 的强大能力和广阔应用前景,多模态学习来到了一个全新的阶段。LAMM 旨在建设一个助力多模态大模型研究的开源社区,并向社区开源了包括数据准备、模型训练、性能评测所有相关数据。

作为最早一批投入多模态语言模型研究的团队,我们希望不断发展 LAMM 工具箱,为 LAMM 开源生态提供轻量易用的多模态研究框架,和开源力量合作,助力更多有意义的研究。

以上内容均会在 LAMM 主页持续开源,请大家关注我们的主页和项目,也欢迎为 LAMM 代码库多多提交反馈和 PR。
产业LAMM
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

多任务学习技术

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~