Jiayuan Mao、Chuang Gan作者张倩 路编译

1+1>2:MIT&IBM提出结合符号主义和连接主义的高效、准确新模型

自人工智能的概念提出以来,关于符号主义和连接主义的争论就不绝于耳。究竟哪一种方式可以实现更好的人工智能?这一问题目前还没有定论。深度学习的快速发展让我们看到连接主义在构建 AI 系统中的优势,但其劣势也很明显,如对大量数据的依赖。因此,越来越多的学者开始寻求取两者之长的 AI 系统实现方式,本文中介绍的 Neuro-Symbolic Concept Learner 便是其中的一项工作。

人工智能应该复制人脑的哪一部分功能?这个问题的答案反映了一场辩论的焦点,这场辩论和 AI 的历史一样久远。20 世纪 50 年代,人类开始探索如何创建可以思考的机器,也是从那时候起,AI 领域的研究和发展之路陷入了分歧:符号主义和连接主义 AI 应如何取舍?

符号主义 AI 也叫「基于规则的 AI」,其基本思想是将世界上的所有逻辑和知识转换为计算机编码。在符号主义 AI 中,每个问题都必须拆分为一系列的「if-else」规则或其他形式的高级软件结构。

连接主义 AI 体现在机器学习深度学习中,其基本思想是:AI 模型应该通过统计比较和发现不同信息之间的关联来学习发展自己的行为,即不告诉模型如何找出图像中的猫,而是给它一千张猫的图像,让它自己找出发现图像中猫的方法。

在该领域早期的六十年中,创建 AI 系统的主流方法多数以符号主义为主。但在过去的十年里,人工神经网络的一场变革使得深度学习成为 AI 领域的主角。

在符号主义、连接主义两个阵营继续争论哪种方法能产生更好的结果之际,一些研究者却另辟蹊径,开始着手研究如何取二者之长。代表性研究包括前段时间介绍的 DeepMind 新型端到端神经网络架构 PrediNet(参见:结合符号主义和深度学习DeepMind 提出新型端到端神经网络架构 PrediNet)以及 MIT-IBM Watson AI Lab 研究者提出的神经-符号概念学习器(Neuro-Symbolic Concept Learner,NS-CL)。

论文:THE NEURO-SYMBOLIC CONCEPT LEARNER: INTERPRETING SCENES, WORDS, AND SENTENCES FROM NATURAL SUPERVISION

论文链接:https://openreview.net/pdf?id=rJgMlhRctm

该论文出现在今年的 ICLR 会议上。在论文中,研究者介绍了一种将神经网络与基于规则的人工智能结合在一起的 AI 模型——「Neuro-Symbolic Concept Learner」,并称这种混合方法有望克服每种方法面临的挑战,同时创造出大于二者总和的能力。

该模型可以学习视觉概念、词以及句子的语义分析,且不需要对它们进行显式的监督。它仅通过看图像、阅读成对的问题和答案来学习。该模型构建了一个基于对象的场景表征,并将句子转换成可执行的符号程序。

为了填补两种学习模块之间的鸿沟,研究者使用了一种能够在潜在场景表征上执行这些程序的神经-符号推理模块。与人类的概念学习方式类似,该感知模块基于被提及对象的语言描述来学习视觉概念。同时,学到的视觉概念有助于学习新单词、分析新句子。他们使用课程学习(curriculum learning)来指导对图像和语言构成的大空间的搜索。

大量实验表明,NS-CL 模型在学习视觉概念、词表征和句子的语义分析方面具有很高的准确率和效率。此外,该模型可以轻易泛化到新的对象属性、构成、语言概念、场景、问题甚至是新的程序域,还可用于视觉问答、图像-文本双向检索等应用。

为什么要结合符号主义和连接主义

符号主义的局限

在过去的几十年里,多数研究集中在创建可模拟人脑推理功能的符号 AI 系统上,但经验表明,人类解决的许多问题都无法分解为符号表征。

人类可以凭借符号检测出猫的特征(如尖耳、三角鼻等),但这一过程非常复杂,涉及到不同的角度、光照等,甚至在遮挡情况下也能脑补出全貌。但对于计算机来说,将这些相同的特征转换为符号相当困难,需要写出大量代码,从无限种可能中抽象出这些特征。

简而言之,符号 AI 不适合处理图像、音频等非结构化数据,即使在充满非结构化文本数据的自然语言处理任务中,它的应用也十分有限。

连接主义也不是万能的

与符号主义 AI 相比,神经网络在处理非结构化数据方面要擅长得多,但它也有自己的局限。

神经网络要依赖大量的数据,而且往往是经过标注的数据。如果数据量不足,深度学习模型就很难发挥自己的作用。因此在某些数据匮乏的领域,应用深度学习解决实际问题是非常困难的。

此外,神经网络还存在可解释性差、面对对抗样本时鲁棒性差等问题。

虽然神经网络可以解决一些符号主义 AI 难以解决的问题,但在符号主义 AI 可以轻易解决的一些简单推理问题上,神经网络可能无能为力,比如高中数学。

二者结合才能碰撞出智慧的火花

MIT 和 IBM 研究者设计的神经-符号概念学习器(NS-CL)结合了符号主义 AI 和深度学习的长处,主要想法是结合基于规则软件的推理能力和神经网络的学习能力,构建一个强大的混合 AI 模型。

在这个混合 AI 模型中,符号主义构件利用神经网络处理、分析非结构化数据的能力。同时,神经网络也受益于基于规则的 AI 系统的推理能力,这种能力可以减少神经网络学习新事物时所需的数据量。

二者结合产生了「1+1>2」的效果。

神经-符号概念学习

这项研究提出的神经-符号概念学习器(NS-CL)利用一种符号化推理过程联结视觉概念、词以及句子的语义分析,且无需对其中任何一种提供显式注释。研究者首先使用视觉感知模块为场景构建基于对象的表征,然后运行语义分析模块将问题转换为可执行的程序。接下来,他们应用了一个 quasi-symbolic 程序执行器,根据场景表征来推理答案。他们使用成对的图像、问题和答案来联合训练视觉和语言模块。

图 2:该研究提出用神经符号推理来联合学习视觉概念、词和句子的语义分析

如图 2 所示,给定一个输入图像,视觉感知模块负责检测场景中的对象并提取出每个对象的潜在表征。语义分析模块将用自然语言表示的输入问题转换为用给定领域特定语言(DSL)写成的可执行程序。生成的程序具有符号和功能模块的层次结构,每个模块完成场景表征上的一种特定操作。显式程序语义具有组合性、可解释性和可泛化性。

程序执行器根据得到的场景表征来执行程序并回答问题。该程序执行器以一种符号化、确定性的方式工作。这种特征可以确保对程序进行透明的执行追踪。该程序执行器有一个对视觉表征和概念表征完全可微的设计,从而支持训练期间基于梯度的优化。

Quasi-symbolic 程序执行

给定从自然语言问题中恢复的潜在程序,符号程序执行器执行该程序并根据基于对象的视觉表征得到答案。该程序执行器是一个确定性的功能模块的集合,这些模块用于实现 DSL 中指定的所有逻辑操作。图 4B 展示了该程序的执行追踪。

 图 4B:用于 VQA(视觉问答)的神经-符号推理模型图示。感知模块首先将视觉场景解析为基于对象的深度表征,语义分析器将句子解析为可执行的程序。然后符号执行过程将两个模块连接起来。

课程视觉概念学习

受人类概念学习的启发,研究者采用课程学习方法来促进联合优化。他们将训练样本分为四步(图 4A):1. 学习对象级别的视觉概念;2. 学习关系问题;3. 在感知模块固定的情况下学习更加复杂的问题;4. 联合精调所有模块。他们发现,这对学习神经-符号概念学习器(NS-CL)至关重要。

图 4A:通过看图、阅读成对的问题和答案,对视觉概念、词和句子的语义分析进行课程学习。

实验

研究者通过实验展示了 NS-CL 的多项优势:

  1. 以惊人的准确率学习视觉概念;

  2. 在 CLEVR 数据集上实现数据高效的视觉推理;

  3. 能够很好地泛化至新属性、视觉构成和语言领域。

研究者在 5000 张图像上训练 NS-CL(数据量不到 CLEVR7 万张训练图像的 10%),在课程学习过程中为每个图像生成 20 个问题。Mask R-CNN 模块是在 4000 张生成 CLEVR 图像上预训练的,这些图像具备边界框标注。

视觉概念学习

NS-CL 模型将属性作为神经算子,从潜在对象表示映射到属性特定的嵌入空间,如下图 3 所示:

图 3:研究者将「Shape」、「Color」等属性作为神经算子。这些算子将对象表示映射到视觉语义空间。研究者使用基于相似度的指标进行对象分类。

下表 2 总结了 NS-CL 和其他强大基线模型的对比结果:

表 2:该研究使用包含「How many red objects are there?」等简单问题的诊断问题集,评估模型学到的视觉概念。NS-CL 的性能优于卷积和注意力基线模型。这表明基于对象的视觉表示和符号推理方法能够更好地理解视觉概念。

数据高效和可解释的视觉推理

NS-CL 通过观察图像、读取成对问答来联合地学习视觉概念、词汇和语义分析。它可以直接应用于视觉问答任务(VQA)。

下表 4 总结了多个模型在 CLEVR 验证集上的结果。在不使用程序注释的所有模型中,NS-CL 取得了最优性能。

表 4:NS-CL 模型在没有程序注释的情况下,取得了超过所有基线模型的性能,甚至与使用完整程序注释的 TbD 等模型相比,也达到了 类似的性能。

研究者还对视觉特征和数据效率进行了系统研究,他们实现了基线模型的两个变体:TbD-Object 和 MAC-Object。表 3 总结了实验结果。NS-CL 模型的数据效率优于所有基线模型。

表 3:研究者对视觉特征和数据效率进行了系统研究,对比了 NS-CL 和多个基线模型及其变体。在仅使用 10% 训练图像的情况下,NS-CL 可与使用完整数据集训练的基线模型获得相似的性能。

在新属性和视觉构成上的泛化效果

图 5:研究者测试了场景中对象数量和问题复杂度(即程序树深度)的组合泛化效果。研究者将数据分割为四组,它们具备不同的场景和问题复杂度。而该研究提出的基于对象的视觉表示和显式程序语义取得了最好(几乎完美)的组合泛化效果。

新场景和问题的组合泛化效果

如下表 5 所示,NS-CL 在更大场景和更复杂问题上实现了几乎完美的泛化效果,其 QA 准确率至少超过其他基线模型 4%。

表 5:研究者引入了一种新型简单的 DSL 用于图像-描述检索,以评估视觉概念迁移的效果。由于 VQA 和图像描述检索存在差异,因此 VQA 基线模型仅能在部分数据集上推断出结果。而 NS-CL 基于对象的视觉概念可以直接迁移到新领域。

扩展至其他程序域

表 5c 对比了 NS-CL 和典型的图像-文本检索基线模型在完整图像-描述数据集上的性能。在没有句子语义标注的情况下,NS-CL 可以将图像描述解析为新 DSL 程序,其性能比 CNN-LSTM 基线模型好 30%。

扩展到自然图像和语言

图 7 展示了 NS-CL 在 VQS 上的执行追踪。

图 7:左:来自 VQS 数据集的图像-问题对示例,以及对应的 NS-CL 执行轨迹。右:模型在 VQS 测试集上的结果。NS-CL 取得了和基线模型类似的性能。

图 8:从 VQS 中学到的概念,包括对象类别、属性和关系。


原文链接:https://bdtechtalks.com/2019/06/05/mit-ibm-hybrid-ai/

理论IBMMIT连接主义符号主义
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

概念学习技术

概念学习,也称为类别学习、概念获得和概念形成,定义为“搜索和列出可用于区分各种类别的非样本的样本的属性”。 更简单地说,概念是帮助我们对对象、事件或想法进行分类的心理类别,建立在对每个对象、事件或想法具有一组共同相关特征的理解的基础上。

视觉问答技术

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

文本检索技术

文本检索(Text Retrieval)与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~