Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

AI「读图会意」首超人类!阿里达摩院刷新全球VQA纪录

历经六年,AI 在这一技能上得分首超人类。

8 月 12 日,国际权威机器视觉问答榜单 VQA Leaderboard 出现关键突破:阿里巴巴达摩院以 81.26% 的准确率创造了新纪录,让 AI 在「读图会意」上首次超越人类基准

继 2015 年、2018 年 AI 分别在视觉识别和文本理解领域超越人类分数之后,AI 在多模态技术领域又迎来一大进展。

达摩院 AliceMind 在 VQA Leaderboard 上创造首次超越人类的纪录。

背景介绍

近十年来,AI 技术保持高速发展,AI 模型已在多个任务和技能上达到超越人类的水平,比如在游戏领域,强化学习智能体 AlphaGo 于 2016 年击败了世界顶尖棋手李世石;在视觉理解领域,以 CNN 为代表的卷积类模型于 2015 年在 ImageNet 视觉分类任务上超越了人类成绩;在文本理解领域,2018 年微软与阿里几乎同时在斯坦福 SQuAD 挑战赛上让 AI 阅读理解超越了人类基准

VQA 是 AI 领域难度最高的挑战之一。在测试中,AI 需要根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个 AI 模型需要融合复杂的计算机视觉以及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。

VQA 技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。

宋代诗人张舜民的诗句「诗是无形画,画是有形诗」,描绘了语言与视觉的相通之处。所谓的「读图会意」,即通过视觉理解信息,是人类的一项基础能力,但对 AI 来说却是要求极高的认知任务。解决该挑战,对研发通用人工智能具有重要意义。

尽管 AI 已经在下棋、视觉、文本理解等单模态技能上实现突飞猛进,但在涉及视觉 - 文本跨模态理解的高阶认知任务上,AI 过去始终未达到人类水平。

阿里达摩院:VQA 分数终于超越人类

为攻克这一难题而设立的挑战赛 VQA Challenge,自 2015 年起先后于全球计算机视觉顶会 ICCV 及 CVPR 举办,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与,并形成了国际上规模最大、认可度最高的 VQA(Visual Question Answering)数据集,其包含超 20 万张真实照片和 110 万道考题。


VQA 技术自 2015 年以来的进展。

今年 6 月,阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠,成绩领先第二名约 1 个百分点、领先去年冠军 3.4 个百分点。两个月后,达摩院再次以 81.26% 的准确率创造 VQA Leaderboard 全球纪录,首次超越人类基准线 80.83%。

VQA 的核心难点在于对多模态信息进行联合推理认知,即在统一模型里做不同模态的语义映射和对齐。

达摩院 NLP 及视觉团队对 AI 视觉 - 文本推理体系进行了系统性的设计,融合了大量算法创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能 AI 集成等,让 AI「读图会意」水平上了一个新台阶。

具体地,为了解决 VQA 挑战,基于阿里云 PAI 平台及 EFLOPS 框架的工程底座,达摩院语言技术实验室及视觉实验室对 AI 视觉 - 文本推理体系进行了系统性的设计,融合了大量算法创新,包括:

  1. 多样性的视觉特征表示,从各方面刻画图片的局部和全局语义信息,同时使用 Region,Grid,Patch 等视觉特征表示,以更精准地进行单模态理解;
  2. 基于海量图文数据和多粒度视觉特征的多模态预训练,用于更好地进行多模态信息融合和语义映射,创新性地提出了 SemVLP,Grid-VLP,E2E-VLP 和 Fusion-VLP 等预训练模型;
  3. 研发自适应的跨模态语义融合和对齐技术,创新性地在多模态预训练模型中加入 Learning to Attend 机制来进行跨模态信息地高效深度融合;
  4. 采用 Mixture of Experts (MOE) 技术进行知识驱动的多技能 AI 集成。

其中自研的多模态预训练模型 E2E-VLP 和 StructuralLM 已经被国际顶级学术会议 ACL 2021 接受。模型大图如下:

我们来看一下实际效果展示,比如 VQA 考题中「根据有礼服装饰的小熊玩具照片来回答这些玩具用来做什么的?」达摩院 AliceMind 成功推理出一个可能的答案「婚礼」。

其实,这并不是阿里达摩院第一次在 AI 关键领域超越人类基准。2018 年,达摩院曾在斯坦福 SQuAD 挑战赛中历史性地让机器阅读理解首次超越人类,引发了海外媒体关注。今年以来,达摩院在 AI 底层技术领域动作频频,先后发布了中国科技公司中首个超大规模多模态预训练模型 M6 及首个超大规模中文语言模型 PLUG, 并开源了历经 3 年打造的深度语言模型体系 AliceMind(https://github.com/alibaba/AliceMind),其曾登顶 GLUE 等六大国际权威 NLP 榜单。

入门超越人类结果VQA Leaderboard阿里达摩院
相关数据
视觉问答技术

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

达摩院机构

阿里巴巴达摩院(The Academy for Discovery, Adventure, Momentum and Outlook,Alibaba DAMO Academy)成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。阿里巴巴达摩院由三大主体组成,一是在全球建设的自主研究中心;二是与高校和研究机构建立的联合实验室;三是全球开放研究项目-阿里巴巴创新研究计划(AIR计划)。

https://damo.alibaba.com/
推荐文章
暂无评论
暂无评论~