周子嫄作者

人工智能理解常识的数十年挑战,如何让 AI 不再“智障”?

最新一波 AI 进步浪潮,结合了机器学习与大数据,已为我们提供能够对口头命令做出响应的工具,以及可以识别道路前方物体的自动驾驶汽车。

但不得不说,这些所谓“智能”产品的常识基本为零。

亚马逊智能助理 Alexa 与苹果智能助理 Siri 可以通过引用维基百科(Wikipedia)来获取某种植物的信息,但并不知晓将植物放在黑暗中会发生什么;能够识别前方道路障碍物的智能程序,通常也无法理解为何避开人群比避免堵车更加重要。

人工智能要变得像人一样聪明,常识推理能力是其必备的能力之一。但如何让人工智能理解常识,已是一个困扰了人工智能 50 多年的难题。

纽约大学教授欧内斯特·戴维斯(Ernest Davis)已经研究人工智能的常识问题数十年。他认为,理解常识对于推进机器人技术至关重要。机器需要掌握时间、因果关系和社交互动等基本概念,才能展示出真正的智慧。而这正是我们目前所面临的最大障碍。

常识问题是人工智能的重大盲点

“常识”一词不仅仅是指一种知识,还可以指对这种知识的看法,不是特定的学科领域,而是一种广泛可重复使用的背景知识,几乎是每个人都应该拥有的。

例如,人去餐馆是去吃食物而不仅仅是点菜和付钱的;把火柴扔到一堆木柴上,意味着有人在尝试生火。大多数常识知识的隐式属性,使得这类知识很难被明确表示出来。

虽然早期研究者认为,可以通过把现实世界的事实都记下来构建一个知识库,以此作为实现自动化常识推理的第一步。然而这种做法实现起来远比听起来难得多。无论知识库收集多么丰富多彩的知识,都难免无法捕捉到人类常识推理中常出现的模棱两可和关联重叠的情况。

IBM 沃森(Watson)计算机系统前首席研究员大卫·费鲁奇(David Ferrucci),如今正在向新发明的机器解释一个儿童故事。在这个故事中,费尔南多(Fernando)和佐伊(Zoey)买了一些植物。费尔南多将他的植物放在窗台上,佐伊则将植物扔在她黑暗的房间里。几天后,费尔南多的植物长得郁郁葱葱,佐伊的植物叶子却已变成褐色。在佐伊把植物转移到窗台上后,叶子又开始焕发生机。

费鲁奇面前的屏幕上出现了一个问题:“费尔南多将植物放在窗台上是因为他想让植物更健康吗?这是否有意义?洒满阳光的窗户光线充足,植物就能保持健康。”

这个问题是费鲁奇创造的人工智能系统努力学习世界运作方式的部分内容。对于我们而言,能轻易理解费尔南多将植物放在窗台上的缘由。但对于 AI 系统而言,这一点很难掌握。
因为在阅读文本时,人类可以做出常识性的推理,这些推理对理解叙事性故事(narrative,由具有逻辑、因果等关系的events构成)起支撑作用。要让机器和人类一样具有这个能力,就必须无限地获取相关常识,越准确越好。

费鲁奇和他的新公司元素认知(Elemental Cognition)希望通过教会机器获取并应用日常知识,来与人类进行交流、推理并观察周围环境,以此解决现代人工智能中的重大盲点。

研究人员通过在屏幕上单击“是”按钮,就能回答费尔南多植物的问题。而在某处的服务器上,一个称为 CLARA 的 AI 程序将该信息添加到事实与概念库中,学习这种人造的常识。就像一个永远好奇的孩子一样, CLARA 不断向费鲁奇询问有关植物故事的问题,试图“理解”事物为何以这种方式展现出来。

“我们能否让机器真正理解他们所阅读的内容?” 费鲁奇说,“这非常困难,但正是元素认知想要实现的目标。”

AI 理解常识的过程

尽管人工智能领域开始研究常识问题已久,然而进展还是慢得出奇。一开始,研究人员尝试将常识翻译成计算机语言——逻辑。研究人员认为,如果能够将人类常识中所有不成文的规则用计算机语言写下来,那计算机就能够像做算术一样,利用这些常识进行推理。

不过,这种方法依赖人工,不具有扩展性。新西兰奥克兰大学人工智能研究人员 Michael Witbrock 表示,能够方便地用逻辑形式表示的知识量,原则上是有限的,并且事实证明这种方法实现起来非常艰巨。

另一条通往常识的道路,是使用神经网络进行深度学习。研究人员设计这样的人工智能系统来模拟生物大脑中相互连接的神经元层,在不需要程序员事先指定的情况下学习模式。

在过去的十几年间,经过大量数据训练的越来越复杂的神经网络,已经变革了计算机视觉和自然语言处理领域的研究。然而,虽然神经网络具有较强的智能能力以及灵活性(实现自动驾驶,在国际象棋、围棋中击败世界一流的玩家),但是这些系统却仍然会犯很多令人啼笑皆非的常识性错误(有时甚至是致命的)。

在 2011 年,沃森计算机通过解析大量文本,找到了智力竞赛节目《危险边缘》问题的答案,但在理解常识方面仍有很多局限性。随后,人工智能领域的深度学习开始兴起。通过教计算机识别人脸,转录语音并向它们提供大量数据来执行其他操作,深度学习已得到广泛应用,且近几年在语言理解方面取得了新的突破。目前可以通过特定的人工神经网络生成问题答案或者具有连贯性的文本模型。谷歌、百度、微软,以及 Open AI 都已创建更复杂的语言处理模型。

以 CLARA 为例,其目标是通过明确逻辑规则,将深度学习与构建知识到机器中的方式相结合,主要使用统计方法来识别句子中的名词和动词等概念。

有关特定主题的知识来源于亚马逊 Mechanical Turkers,随后会内置到 CLARA 的数据库中。CLARA 再将其给出的事实与深度学习语言模型结合在一起,产生自己的常识。此外,CLARA 还能通过与用户互动来收集常识。如果遇到分歧,它可以询问哪种陈述最为准确。
CLARA 并非唯一可以理解常识的人工智能。华盛顿大学教授,艾伦人工智能研究所研究员 Yejin Choi 与合作者近期提出自动构建常识知识库模型  COMET(Commonsense Transformers),融合了符号推理与深度学习两种截然不同的人工智能方法。

与纯深度学习语言模型相比,COMET 在交谈或回答问题时的理解错误频率更低。因为COMET 与许多使用规范模板存储知识的传统知识库正好相反,常识知识库仅存储松散结构的开放式知识描述通过借鉴 Transformer 上下文感知语言模型,在 ATOMIC 和 ConceptNet 知识库中选取种子知识训练集进行预训练,使得模型可以自动构建常识知识库,给定头实体和关系,生成尾实体。

尽管常识建模存在挑战,但 Yejin Choi 的调查显示,将来自深层预训练语言模型的隐式知识转移到常识图中生成显式知识时,结果很有希望。研究的实证结果表明,COMET 能产生被人类认可的高质量新知识,其最高1位的精确度能达到 77.5%(ATOMIC)和 91.7%(ConceptNet),接近人类的表现。使用常识生成模型COMET进行自动构建常识知识库,或许能成为知识抽取构建知识库的合理替代方案
“如果我生活在一个没有其他人(可以交谈)的世界里,我仍然能够拥有常识——我仍然能够理解这个世界是如何运转的,并且对我应该看到什么和不应该看到什么抱有预期。”布朗大学的计算机科学家 Ellie Pavlick 说,他目前正在研究如何通过在虚拟现实中与人工智能系统互动来教授它们常识。

对 Pavlick 来说,COMET 代表了“真正令人兴奋的进步,但缺少的是实际的参考方面”。“苹果”这个词不一定就是真的苹果,这种意义必须以某种形式存在,而不是语言本身。”

Salesforce 公司的高级研究科学家 Nazneen Rajani 也在追求类似的目标,但她认为,神经语言模型的全部潜力还远未开发出来。她正在研究神经语言模型是否能学会推理涉及基础物理的常识情景,比如一个装有球的罐子被打翻通常会导致球掉出来。

“现实世界真的很复杂,”Rajani 说,“但自然语言就像一个低维度的代理,反映了现实世界的运作方式。神经网络可以通过文本提示来预测下一个单词,但这不应该是它们的限制。他们可以学习更复杂的东西。”

随着AI理解常识研究的不断突破,或许很快,我们身边的人工智能助手就会变得越来越聪明和善解人意。

参考资料:
1.https://www.wired.com/story/watsons-creator-teach-ai-new-trick-common-sense/
2.https://www.quantamagazine.org/common-sense-comes-to-computers-20200430/
3. https://indexfziq.github.io/2019/07/03/COMET/
AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业AI人工智能常识
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

IBM 沃森技术

沃森是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员David Ferrucci所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

神经语言模型技术

语言模型是估计单词序列的联合概率函数,比如给一个长度为m的单词序列,通过使用语言模型,可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用,可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别,机器翻译,语音标记,解析,手写识别,信息检索等领域。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

合合信息机构
推荐文章
暂无评论
暂无评论~