Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年

OmModel V3 将于近期发布,新版本将提供一句话生成算法、自由定义需求、中英双语互动、智能报告等多个特色功能,用户可以通过语音或者文字等形式,自由提交任何需求任务,系统将根据任务给出相关反馈,包括音视图文等多个模态的结果呈现。

人类如何认知世界?

人类 80% 的信息来自于视觉,同时人类也是地球上唯一拥有完整语言体系的生物。当我们通过双眼看到这个世界,不论是阅读书籍、网上冲浪还是欣赏自然景观,我们的大脑都在进行着复杂的信息处理。我们不仅能够感知周围环境中的物体和形状,还能够理解它们的意义和内涵。这得益于我们独特的语言能力,它使我们能够表达和交流抽象的概念和想法。

通过语言,我们可以共享知识、传递经验、探讨问题,这也是人类文明发展的重要基石之一。尽管视觉是我们获取信息的主要途径之一,但是缺乏语言能力的动物只能凭借本能行动和简单的声音表达与其他个体进行交流,无法像人类一样进行高级的社交互动和智力活动。因此,语言的重要性不容忽视,它是我们作为人类的独特标志之一,也是我们与自然界其他物种之间的重要区别。

与此同时,如何赋予机器人类般的智能一直是计算机科学的终极难题,近期随着 GPT-4 等多模态大型语言模型的出现,语言成为了打开人工智能宝盒的关键钥匙。

让机器用语言理解世界

“人类的认知和理解需要依赖语言。语言使我们能够表达和共享常识知识。例如,“水是液体,可以流动”,这是一条常识知识,我们可以用准确的词汇和语法结构来描述这一现象,让更多人了解和掌握这一知识。此外,语言也是人类逻辑推理的重要载体。在逻辑推理中,人们通过识别和分析命题的真假和关系,通过语言的抽象和形式化表达,可以更好地理解和应用逻辑规则。有了文字、有了语言,它们成为人类与世界交流的最基本、最便捷、最核心的介质。” 对于语言之于认知的价值,联汇科技首席科学家赵天成博士的见解明确。

前日刚发布的多模态大模型 GPT-4 就是科学家通过大模型的技术方式拓展认知边界的积极尝试。

GPT-4 通过图像或文本输入,完成识别、解析,输出文本结果。对于 GPT-4 的这次升级,人们惊讶于它的 “读图能力” 和 “幽默感”,不论是各类统计表格,还是网络梗图,GPT-4 的表现可圈可点。

尽管 GPT-4 在许多现实世界场景中能力还不如人类,但它在多种不同领域的专业应试中,已经够排到前段位置,程序编写、开放问答、标准化测试等众多方面,“超过人类的平均水平” 已经是事实。

对此,赵天成博士进行了更多的解释:这次的 GPT-4 是 GPT 大模型的新一次迭代,加入了新的模态,即对图片的理解,同时大模型对语言生成和理解能力也有所提升。不论大模型的模态和规模如何增加、扩大,它的底层逻辑一定以语言模型为认知内核,将更多的模态融入进来,实现以自然语言为核心的数据理解、信息认知与决策判断。

语言曾经是人类的特有能力,现在也成了快速逼近的强人工智能的核心载体。

再次进化的认知能力

赵天成博士表示,在文本语言理解的基础上,如果叠加视频、音频等更多模态,实现更大范围、更多行业数据的学习,则意味着大模型的认知能力将得到更智能的进化升级。

除了 OpenAI 有卓越的表现外,国内外瞄准大模型的人工智能企业并不少,其中,赵天成博士和他的团队在多模态大模型领域技术及应用已经提前交卷。

赵天成博士的技术团队由来自卡耐基梅隆大学(CMU)、加州大学(UCLA)、微软与阿里巴巴等国际顶尖院校和机构的硕士与博士组成,多年深耕且引领国际多模态机器学习人机交互领域的科研工作,是一支拥有多项核心技术的国际顶尖领军团队。

图片

赵天成博士(右 4)及其核心团队

赵天成博士毕业于卡耐基梅隆大学计算机科学专业,长期从事多模态机器学习人机交互技术领域的理论与技术研究,带领团队率先突破非结构化数据直接使用、跨模态数据融合分析等行业难题,多次获得国际顶会最佳论文,微软研究院 best & brightest phd,主持、参与多个国家、省、市重大项目研究,是国际多模态交互 AI 领域领军人物。

他们在 2019 年就开始深入研究多模态大模型技术,是业界率先从事预训练大模型研究的团队之一,并于 2021 年发布了自研的 OmModel V1 多模态预训练大模型,作为业界最早的语言增强视觉识别模型(Langauge Augumented Visual Models),OmModel 在 V1、V2 版本迭代的基础上,已经实现对视频、图片、文本等不同模态的融合分析和认知理解,尤其强调通过自然语言增强 AI 模型的视觉识别能力和跨模态理解能力,帮助用户达成认知智能。通过将视觉和语言的有机结合,将使得机器智能向人类智能更靠近了一步。

图片

OmModel 提出的多项原创核心关键技术实现了技术和应用的创新,包括:

1. 实现更高数据与模型参数效率的无止境多任务新型预训练算法

突破现有多模态大模型预训练耗费超大规模预训练数据和算力的局限,提出基于复杂异构训练数据的无止境多任务与训练算法,融合图片描述、图片分类、区域描述等多种视觉语言数据类型,从多角度进行多层级的大模型预训练,实现用更高的数据效率与模型参数效率,增强在同等数据情况下的预训练效果,提高模型综合识别能力,实现一个多模态大模型网络结构支撑 N 种任务、N 种场景的持续学习机制

2. 通过自然语言增强实现的多场景零样本新型视觉识别模型

针对传统视觉识别模型依赖海量人工标注数据与烟囱式训练的瓶颈,提出基于自然语言增强的多模态视觉识别模型,通过自然语言作为知识桥梁,让视觉识别模型可以基于大规模多模态预训练泛化到任何全新场景当中,实现高精度的零样本新领域识别,突破了传统视觉识别系统必须按照场景进行定制的魔咒,让用户可以通过自然语言定义任意视觉目标,实现了视觉识别的冷启动,大幅度降低了视觉识别应用开发的门槛

3.“人在环路” 多轮人机意图对齐的新型大模型微调机制

针对视觉语言模型现有领域微调方法对硬件要求高、微调过程可控性有限等迫切挑战,提出基于 “人在环路” 多轮人机交互式新型微调方式,通过结合人类专家的业务知识和迭代式的大模型微调方式,实现更加方便有效的大模型领域微调,将人类专家的业务目标和领域知识更好地融入到大模型的训练当中;通过非参数学习和提示学习,减少大模型微调所需要的 GPU 算力需求,实现更加低代价的大模型行业落地

4. 实现在低成本推理硬件环境下的新型大模型推理机制

针对现有多模态大模型仅强调识别精度,忽略推理速度,难以在大规模多模态数据匹配查询中应用的短板,提出基于稀疏向量匹配的视觉语言推理算法。基于端到端稀疏向量学习与倒排索引大数据结构,实现亿级多模态数据秒级匹配,匹配速度相较于传统 GPU 向量比对算法提高 5 倍以上,在 CPU 环境提高匹配速度 300 倍以上;通过多专家蒸馏算法,提高多模态大模型编码推理速度 5 倍以上,大幅度降低多模态大模型的部署成本。

一手技术,一手应用

赵天成博士表示,为了更好地服务行业和应用,OmModel 突破了大多数视觉语言大模型仅仅局限于学术研究和开源数据训练的瓶颈,通过上述无止境预训练机制,在通识数据的基础上持续吸纳行业预训练数据

目前已经针对视频云、智慧城市、融合媒体等行业,在通用预训练数据的基础上,构建超过千万的多模态图文预训练数据集,大幅提高多模态大模型在垂直行业领域的零样本识别性能和小样本调优性能,实现从 “通用大模型” 向着 “行业大模型” 的重要升级和进化。

图片

“技术创新 + 场景应用” 的双核内驱使联汇科技成为业内最早实现多模态大模型技术服务落地的企业。

比如,在电力行业中,针对基层无人机电路巡检的业务需求,传统模式存在输电线路小部件典型缺陷识别准确率不高、识别系统运行速度慢、识别结果依赖人工复核等棘手问题,通过 OmModel 行业大模型生成针对输电线路多模态数据的人工智能预训练算法,以及针对小部件缺陷的图像分析模型,提升输电线路小部件典型缺陷检出率和识别精度,并通过蒸馏算法,实现缺陷检测模型的参数压缩,提高模型的运行速度,提升输电线路缺陷检测的整体效率,为电网公司在输电线路无人机巡检缺陷精准识别领域提供应用示范。

图片

OmModel V3 来了!

OmModel 已经实现在智慧电力、视觉监管、智慧城市、机器人、数字资产等领域的落地应用,后续还会有哪些动作方向呢?

对于 OmModel 的迭代规划,赵天成博士非常明确:“我们始终秉着‘用视觉感知世界,用语言理解世界’的观点,产品和技术方向一定是如何让 AI 更贴心、更懂人类,通过视觉和语言的融合理解,让用户和机器之间可以有便捷的交互、更自由地表达以及更智慧的反馈,使大模型的能力成为用户的能力,让人工智能真正地为更多人所有、所用。”

据悉,OmModel V3 将于近期发布,新版本将提供一句话生成算法、自由定义需求、中英双语互动、智能报告等多个特色功能,用户可以通过语音或者文字等形式,自由提交任何需求任务,系统将根据任务给出相关反馈,包括音视图文等多个模态的结果呈现。

图片

OmModel V3 正在带来更多关于智慧未来的想象 ——

比如,现有的家庭摄像头和平台,作用非常有限,提醒和记录是其用户频繁使用的功能,甚至这类简单需求在使用中也 bug 频出,比如大量误报,让系统提醒变成了骚扰,无法定义的监控任务让本该智慧化的体验变得非常呆板、有限。

年轻的铲屎官无法时时刻刻地陪在 “主子” 身边,家里的主子有没有悄悄溜出门,家具拆的还剩多少,对新玩具还满意吗,有没有从未出现的异常行为需要留意,这些需求稀碎但也重要,传统摄像头及平台根本无法满足,通过 OmModel V3,铲屎官将可以通过自然对话定义属于你自己的任务需求,同时选择不同的反馈方式,可以是一份系统化的智能报告,可以是 AIGC 的视频合辑,反正结果也是由你用语言定义。

图片

作为多模态大模型,OmModel 的价值远不止于此,不论是智慧家居的小场景,还是智慧电力等行业级应用,OmModel 的通识能力正在加速释放,通过与硬件、平台等多样的融合应用,它将以智能助手、智慧数字人等不同的形态出现、赋能,提升工作、生活的效率与质量。

随着通用泛化能力的不断释放,关于 OmModel 还能够做什么的问题,赵天成博士的回答很有意思 ——

“这个问题我们已经在各个行业、领域、场景给出了很多答案,但是我们还在不断努力,给出更多、更新、更有意思的回答。当然,这个过程中,我们也希望看到大家的答案,希望有更多的开发者加入我们,通过 OmModel 开启更未来的场景与应用。”

OmModel 的先发优势为技术创新与应用的开启提供了更多可能,如果你也想一起搞点事情,欢迎自荐加入该团队,邮箱:marketing@hzlh.com

最后,读者福利,联汇科技将提供 10 个内测名额让大家抢先体验OmModel V3,可通过微信后台留言申请。参与方式:留言并备注邮箱,联汇科技会给申请的用户发邀请邮件,先到先得。

产业多模态学习
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

强人工智能技术

强人工智能或通用人工智能(Strong AI或者 Artificial General Intelligence)是具备与人类同等智慧、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一,同时也是科幻小说和未来学家所讨论的主要议题。相对的,弱人工智能(applied AI,narrow AI,weak AI)只处理特定的问题。弱人工智能不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能,发现这个具有领域的局限性,人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
暂无评论
暂无评论~