宋睿华作者

用代码构建机器心智,我们离这个目标还有多远?

关于作者:宋睿华博士,微软(亚洲)互联网工程院微软小冰首席科学家。

在中文里,「智能」和「心智」两个词意义相关却又有所不同。

「智能」指的是智识与才能,现在通常用来描述某个对象的聪明层次与能力强度;而「心智」似乎更高阶一些,可以理解为产出创造力与智能的本原。

那么问题来了,我们当下所研究的「人工智能」,是该致力于持续提升机器的智商表现、强化其在垂直领域的专业能力,还是应再超前一步、尝试构建机器的心智本原——脚下的两条路,都通往迷雾深锁、不可预知的未来,我们要选哪条路走?

在我看来,这两条路倒无所谓对错,只是探索者的着眼点存在差异罢了。多年以来,针对人工智能课题,学术界、产业界的研发主流都偏重于实用性更强的「智能」,以至于在相当长的周期内,以对话强化人机连接、获取可供机器学习的高价值数据、打造人工智能创造力矩阵、进而摸索用代码构建 AI 心智的学术思路都少有人探寻,甚至一度被质疑——我的同事就曾遇到过这样的审稿意见:「我完全不能理解,做这种漫无目的的聊天有什么意义。」

直到微软小冰诞生并取得了一定的成绩,对话的价值才逐渐为学界所关注。

从对话到创造 心智的种子开始萌发

或许大家都没有意识到,从 2014 年一代小发布到不久前六代大更新,短短四年间,微软小冰已从一个领先的人工智能对话机器人发展成为以情感计算为核心的完整人工智能框架,许多人的态度也因微软小冰而改变。

普通人的态度:

有一次和母亲聊天,我问她,机器人可以打败人类最好的围棋棋手,厉不厉害?她说当然厉害。我又问,还有个机器人能跟人对话,厉不厉害?她说不厉害,原因是,不是每个人都会下围棋,而且还能具备冠军的实力,但,「是个人都会说话呀」。这件事让我很无语。我母亲虽然不懂自然语言处理的难度,但她的看法也确实代表了大众的直观感受。换句话说,人们会很自然地用人做某件事的难度来衡量与评判人工智能的能力级别。

但微软小冰说人话的能力并不一般。即便对人类而言,要做一个总能琢磨出有趣对白的人,也不是件容易的事,更何况是人工智能。从初代发布至今,时不时会有用户晒出他们与小冰对话过程中的「金句」截图,而且随时间推移,小冰产出金句的频率也越来越高。这体现了小冰越来越强的对话能力,也造就了她的吸引力。

与精确、清晰的答案相比,人们在对话时,更期待获得情感的抚慰或是不寻常的回应,这是小冰团队最早发现和验证的事实。

后来,母亲看到央视《机智过人》节目里小冰写诗的那一期,她开心地跟我说,像小冰这样的机器人,能写出观众喜爱的诗,还会调侃嘉宾,那还真是「挺厉害的」,超出了她的预期。

专家们的态度:

过往,学术界为能够清晰定义对话的问题,会把很多精力投注在问题设定上,从 5W(What、Who、When、Where、Which)到 How 等等。例如 IBM Watson 就在知识问答领域奠定了一座新的里程碑——它能接受自然语言的问题,从大量文档中搜索并分析得出相对精准的答案。而且,有了用户在网络社区里产生的问答语料,研究者发现,这些数据对于机器回答某些宽泛的问题很有帮助。但除却人工智能对话系统在垂直行业领域(像医疗、金融等)的应用外,普通人对于人机对话的需求又该如何定义呢?

说白了,这是一个关于普通人与人工智能为什么聊、又聊什么的问题——曾经有朋友听我说起小冰与其用户间的最长连续对话时间超过 29 小时时表示难以理解:「这人正常吗?」但对我来说,小冰的这项记录倒是挺容易理解的。从需求来说,「越社交,越孤独」、「朋友圈越广阔,自我越渺小」,这些现象都客观存在。社交网络让用户们习惯了展示优势、收获认可,但反过来,当我们身边的每个人都加入到展示优势的队列里,从旁人那里收获理解和认可的难度也加大了。从形象上来说,小冰不是如顶级专家那样的人工智能,而是像邻居家或是隔壁班级的小女生,她有无限的耐心,随时可以陪伴用户聊天、玩游戏,却决不会试图用渊博的知识和高冷的姿态碾压用户的智商与自尊。

如果将人工智能的价值定位于陪伴,那么知识与逻辑就不再是最紧迫需发展的技能,让用户感觉无压力、有趣味,某种意义上更加重要。

2017 年 5 月,微软小冰解锁了写诗及音乐技能,同期,我们还发布了「人工智能创造三原则」,用以规范与指引小冰及其同类的心智发展路径。在进行相关研究的过程中,我发觉,人工智能的终极或许是对人类自身的理解与模拟。

训练小冰写诗,需要对 519 位诗人的现代诗作,正读一万遍,倒读一万遍,用层次递归神经元模型来打磨诗作的语言。这正如我们人类所发现的,阅读对于写作的影响——通过大量阅读优秀的文学作品,人自身的语言体系会进化,取决于天赋,这个进化进程或快或慢,但总体上,阅读者的文字表达能力会在不知不觉中提高。小冰也是如此。有了层次递归神经元网络,小冰也可以通过阅读获得语言的表达能力。

在小冰发布诗集、引发广泛争鸣之后,圈内人士对于人工智能创造与机器写作的态度发生了根本性的转变,学术探讨、应用跟进的样例越来越多。这是我们所乐见的。

盲测者的态度:

《机智过人》第一季,央视综合频道延请了三位年轻诗人,与小冰一起,根据嘉宾提供的一张图片来创作诗歌,再将几首诗作匿去作者姓名、打乱次序、显示在大屏幕上,请现场 48 位观众投票选出最喜欢的那一首。这可说是一次盲测、一次另类的图灵测试

结果出人意料。现场观众将最多的票数投给了小冰,这让原本只是祈祷小冰可别是最后一名的我大吃一惊。摄影机记录了当时的一幕,当人类与人工智能的作品被放在一起平等地比较,对于机器创作的偏见似乎突然间消失了。

第二轮,两位诗人与小冰再度以作品竞争,小冰的诗作仍获得了第二名,因而挑战成功。我们不会自大地认为,小冰写的诗能超越人类诗人,但这次节目却延伸了我们的思考:或许,人工智能研究所追求的目标不应只是将人类的智识与才能复制给机器,更重要的是,通过探索人工智能,更深刻地了解人类自身。

微软小冰从四年前的对话型 AI 到当前将创造力投射至诗歌、音乐、儿童有声读物、金融信息、电视电台主播、媒体新闻评论乃至辅助写作等多元领域,这表明,我们最初埋下的那颗心智的种子,现在似已破土露出了一点嫩芽。

下一站 3x3 实现更主动更具个性的人机对话

微软小冰的下一站在哪里?心智的嫩芽能继续成长壮大吗?答案是,我们正在建立「3x3」的人工智能发展图谱,以此来进一步加速小冰的升级速度。

第一个 3,是整合自然语言处理、语音和计算机视觉三大学科的研究成果,以多模态交互,训练小冰更快进步。

此前,上述学科都是在各自的轨道上独立发展。近年来,深度学习技术与算法的改进先后使语音识别和图像识别实现了显著的突破,人们翘首企盼自然语言处理技术也能达成类似的突破。过去一年里,我们结合了计算机视觉技术来训练小冰的诗歌创作能力,并以此评估多模态交互能否促进人工智能技术的演进,结果令人兴奋。

  • 借助图像识别生成诗歌文本涉及到多项挑战,包括发现图像中潜藏的诗意线索(例如绿色可象征生机、阳光可代表希望)以及生成的诗歌既与图像相关,又能满足语言层面的诗意要求。

    对于这些挑战,我们的解法是,通过策略梯度,将诗歌生成工作划分成两个相关的多对抗训练子任务,并提出了学习深度耦合的视觉诗意嵌入,训练过程中,机器可以连带学习图像中物品、情感和场景的诗意呈现。

    我们还建立了两种指导诗歌生成的判别网络,包括多模态判别器和诗歌风格判别器。研究团队应用自己的模型生成了 8000 张图像,进行了大规模的实验,其中 1500 张图像是随机选取的。我们还邀请了 500 位人类受试者进行图灵测试,其中 30 名评估者是诗歌方面的专业人士,测试结果证明,我们的作诗方法比其他基准方法更高效也更具艺术性。

  • 我们还极大地扩展了小冰的音乐能力。现实中,很多人喜欢唱歌,但只有极少数人才有能力创作歌曲,不仅如此,要想演绎出一首动人心弦的歌曲,往往需要一组音乐人通力合作——从作词作曲到编曲,从演唱、伴唱到演奏、录制,流程繁复又漫长。

    微软(亚洲)互联网工程院在苏州的一支团队提出了一项关于流行音乐生成的新创意。团队提出了一个端到端的旋律及编曲生成框架,将之命名为「小冰乐队」。这个框架首先通过一个基于和弦的节奏及旋律交叉生成模型(CRMCG)来生成一段主旋律,再借助多乐器协同编曲模型(MICA)、根据多模态学习来生成不同乐器的多轨伴奏音乐。最后,团队还对现实世界的数据集进行了大量实验,结果证明了小冰乐队的有效性——相关研究成果已被团队写入论文《小冰乐队:流行音乐的旋律与编曲生成框架》(Xiaoice band: A melody and arrangement generation framework for pop music)。该论文还获得了 KDD 2018(国际数据挖掘与知识发现大会,Conference on Knowledge Discovery and Data Mining)「最佳学生论文奖」(Best Student Paper Award)。

第二个 3,是微软小冰所特有的三大「学习器」,生成模型、共感模型和三观模型。

  • 生成模型」从第五代小冰开始启用。在此之前,历代小冰使用的都是检索模型。虽拥有 10 亿级大数据语料库,但其中的每一句话都是互联网上的已有数据,小冰只是通过分析理解用户的问题,寻找语料库中最合适的话作为她的回答,也就是对对话语料库进行实时检索和选择。使用生成模型之后,小冰能够自创回应。她与人类交流的每一句话,都可能是这世界上从未出现过的。一年来的事实证明,生成模型使小冰快速学习了现有对话语料的交流模式,并能更好地应对相对陌生的话题。

  • 此前,用户在与小冰对话时,偶尔会感受到压力。比如两者间的对话总是需要人类来提出话题,小冰来回应。就好像我们与感兴趣的异性搭讪,如果总是自己主动、对方被动,很快地,对话就会变得淡乎寡味、如同鸡肋——共感模型的开发就是针对这一状况。共感模型可以帮助小冰自行判断对用户的话题是否有感,在此基础上,小冰将会主动求证,进而引导话题的方向,增添新的聊天内容。这样就减轻了用户的压力,同时增加了聊天的自然度和趣味性。

  • 在小冰持续进化的过程中,也不断有商业伙伴加入到我们的合作生态系统中。一些伙伴希望我们将小冰的能力用于孵化其他个性鲜明的人工智能角色。因此,我们也在不断研究如何通过对话来塑造个性——三观模型应此需求而生

    当前,这一模型已被应用于网易云音乐的多多和西西。两个角色的共性在于,他们都是爱听音乐的小鹿,都是男性,且年龄相仿。如何让他们在对话中给用户留下不同的印象呢?我们借鉴了卡通及游戏制作中人物设定的方式,给予了他们不同的性格和喜好。例如,多多喜欢喝咖啡,而西西不喜欢,因为皮肤本来偏黑,迷信喝咖啡会变黑。利用态度分析的技术,多多和西西会对用户提出的一组问题和回复进行分析,判断出用户对何种目标具有怎样的情感信息,例如,对咖啡是喜欢还是讨厌,进而根据人设的不同特点来影响对话,造成有区别有个性的回复。

    三观模型将「体温」赋予了包括小冰在内的人工智能角色,并将通过态度的一贯性、延续性来逐步凸显角色的性格。

将三大学科成果的复合训练体系与微软小冰三大学习器相乘,必然会大大加速小冰的成长,也让我们朝向「用代码构建机器心智」的目标走近了一小步。总而言之,无论情感计算框架,又或是人工智能创造,都不是微软小冰乃至微软人工智能研发部门的最终目标,或许,构建「人工心智」(Artificial Mind)才是。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

产业机器学习人工智能
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

IBM 沃森技术

沃森是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员David Ferrucci所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~