IEEE Fellow何晓冬:让客服不再冰冷

Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业,创业,投资,领导力的理解。本期是Robin.ly创始人Alex Ren采访京东AI研究院常务副院长,前微软雷德蒙研究院主任研究员、新当选IEEE Fellow 何晓冬博士。

以下为采访实录摘要:

Alex:大家好,我是Alex Ren,是TalentSeer的创始人,也是BoomingStar Ventures的管理合伙人。Robin.ly平台设置的初衷是为提高广大研究人员和工程师对AI,对Leadership以及entrepreneurship的理解。今天有幸邀请到京东AI研究院的常务副院长,也是深度学习语言语音研究所的主任,何晓冬博士。何博士曾任微软雷德蒙研究院主任研究员,并且担任华盛顿大学兼职教授和博士生导师。在深度学习自然语言处理语音识别计算机视觉等很多领域,建树颇多。尤其对于AI,leadership以及AI落地很有心得,何博士会在这些方面进行分享。

Alex:何博士,你是今年年初加入京东

何晓冬 对,我在今年三月份正式加入京东。

Alex: 您读博士时主要研究语音识别,后涉猎了深度学习CaptionBot,再到Drawing botAttnGan,一直到最近在做的情感客服类工作,能否介绍下您的研究兴趣?一路走来,AI从传统方法到深度学习,您的研究路径是什么

何晓冬 我做博士的时候是做语音识别。那个时候一般不谈自己做AI,当然语音识别本身是AI的一个核心问题。在清华毕业以后,去中国科学院读硕士研究生的时候,我开始做语音识别。那时候还是用一些统计模型方法,比如像马尔可夫模型,高斯模型。到美国以后,读博士时就继续了这个方向,用统计方向来做语音识别语音识别其实是一个很多年的核心问题,大家都在推进展。博士毕业后,我加入微软,进入微软研究院。我也是从语音识别开始做起,希望语音识别能产生一些产业上的帮助,创造价值。语音试别以后,很自然地希望理解它。因为语音识别只是把声学信号变成一连串的文字,但其实计算机并没有真正理解这个话的意思,所以为了理解这个话的意思,我们自然要进入NLP,自然语言处理,包括语言理解。我在微软研究院时候,最开始从机器翻译入手,机器翻译就是一个很核心的NLP问题。举个例子,把中文翻成英文,看似很简单,但是一代又一代科学家做了很多年。

Alex: 其实Geoffrey Hinton关于深度学习的研究,最早的应用主要在自然语言处理方面,而且也是在微软研究院最先完成的,对吧

何晓冬 这也是个很有趣的故事。可能现在很多人觉得图像识别很重要,但其实深度学习最开始在核心AI技术上的突破是从大规模的语音识别突破开始的。2008年的时候,我算是第一次认识Hinton。那年邓力和我,我们是同事,在NIPS会上举办了一个叫做“Speech and LanguageLearning-BasedMethods and Systems”的workshop。我们邀请了Hinton介绍他最新的工作,包括深度学习。2009年NIPS,邓力俞栋,Hinton又举办了一个workshop。再后来微软邀请了Hinton去访问。同时开始招收实习生,把项目做起来。大概在2010年左右,看到了深度学习在大规模的语音识别上产生了突破性的进展。

Alex:当时的很多工作还是比较前沿性的研究?后来开始大量应用是2012年吗 

何晓冬 2010年以后,我们在微软内部看到,深度学习已经在语音识别上取得了很多进展,认为这是一个很有前景的方向。也扭转整个业界对深度学习,特别是对神经网络的看法。在此之前大家都并不认为神经网络是一个很吃香的方向。但是由于微软及业界做出了成果,大家开始转变了观念。从那时候开始,在图像,在自然语言处理方面都有了很多进展。2012年开始,业内以很快的速度实现了很多突破。 

Alex: 能否介绍下CaptionBot 

何晓冬 因为我一直在做语言,语音这一块,包括像2012年开始,与Yoshua Bengio 合作,开始做自然语言理解,Spoken LanguageUnderstanding. 后来我们还提出了DSSM模型,也就是深度结构语意模型。然后我们发现可以go beyond the language, 抓住深度学习的契机,把不管是语音语言,还是图像,都可在同一个语义空间用feature vector来表示,叫作embedding feature vector。这样就使得语言和图像这种不搭界的两个问题,可以统一在同一个embedding的空间里,一个语意空间里。再进一步扩展,如果能把图像和文字,按照它们本身的意义和内容,放到同一个空间里去,就可以实现图像和文字的互相转化。所以后来我们在2013年底,提出了这个proposal到微软的一个strategic intern program,开始准备做这个方向。但这不仅是我一个人的想法,也是因为数据差不多积累到合适的状态。那时MSR刚好sponsor了一个名为MS COCO的dataset,对每一个图片都有很多自然语言描述,使得我们的研究有了数据基础。同时还有一些其他的进展,包括端到端的机器学习,包括sequential model,这些深度学习模型都出现了。正好是一个合适的时间点。所以我就把我从语言理解专业又扩到了多模态的领域,具体的说是image captioning领域,并跟同事们一起打造了CaptionBot。 

Alex: 后来你又做了一些研究,比如DrawingBotAttnGAN,能介绍一下什么是AttnGAN 

何晓冬 GAN现在可能大家现在比较熟,就是GenerativeAdversarial Networks, 对抗性生成网络,被应用于生成图像。我们之所以做AttnGAN,是想做CaptionBot的反向,做一个closed loop。CaptionBot是从图片生成它的文字描述。AttnGAN,是GAN的一个扩展,是从文字描述生成一个对应图片。AttnGAN试图引入一种像人一样的attention的机制,使得我们在画图时,在画每一个局部的细节时,能对应到文字里的每一个细节。AttnGAN是专门针对局部对局部的语意对照做的一个模型,让画的图更加精细。基于AttnGAN算法我们开发的一个智能绘画机器人就叫DrawingBot。 

Alex:举个例子,如果想画我们Logo的这只鸟,应该如何描述         

何晓冬博士讲述如何DrawingBot原理 

何晓冬 那你可对DrawingBot说,我想画一只鸟,她的脖子是橘色的,肚子是白色的,羽翼是灰色的。DrawingBot 就会画这么一只鸟。 

Alex:目前已经有人开始利用技术进行创作了吗 

何晓冬 现在我们还在讨论阶段。其实在我来硅谷之前,清华美院举办了叫 Art and Design 3.0Forum的论坛,我在论坛上做了一个小发言,就是展示了一些类似的例子。什么是想象力?我们以前认为只有人才有想象力,机器只有记忆。其实在某些层面上,机器是可以看到很多不同的角度,画出一只全新的鸟。这个鸟可能在这个世界上从来没有存在过,有不同的颜色。甚至我们有一个bug把一只鸟的嘴巴都画成蓝色,这肯定是不存在的。但这也可以看成机器的想象力,就像是小孩子一样,可以想象出一些世界上没出过的东西。本质上生成就是在一个空间内按某种分布采样,想象力可看成在一个合理区间的边缘采样。 

Alex: 目前京东把AI的技术运用到线上线下零售领域。这方面的侧重点是什么 

何晓冬 京东有一个很全的链条,包括厂家采购,到网站做display,交易,到售后服务,做收付款,包括送货,及可能需要的退货处理。京东的链条非常长。在每个环节,AI都可以有很重要的应用,或者促进。举一个简单的例子,比如售后服务。京东有一个智能客服机器人。如果用户买东西有些问题,可以通过聊天来问这个机器人,为什么东西还没到,为什么东西损坏了。chatbot 就是一个经典的AI应用。研究院成立以来,进一步促进了AI的应用,改进了智能客服。其中之一就是在智能客服加入了情感。以前我们的chatbot就事论事的回答用户的问题。后来我们发现,当客户来联系客服的时候,往往带有一些情绪,比如,不高兴,生气或者焦急。所以我们最近的一个工作就是,通过AI把情感智能加入到chatbot中,能够检测到用户的情绪,同时交谈时,也会相应的生成一些安抚性的语言,使用户感受到被关心被关注,更加人性化,温暖的交互使得用户的满意度提高了很多

Alex: 你本身完成了一个transition:从一个很有成就的AI研究人员,到领导京东的AI research。更多涉及AI商业化。你个人在从researcher  leader这个transition过程,遇到了什么挑战?什么事情促使你做了这个转变? 

何晓冬 转变可能有两个点。第一,从理论研究到实践。我以前在微软研究院,做研究更多一些。但是京东有这个机会,把AI 进行产业上的应用。比如,刚举的客服的例子。一方面是机会,一方面是挑战。怎么样让AI确实在产业层面产生大规模的impact,更加有影响力。这是挑战也是转变。意味着思考问题的出发点要进行调整。第二,如何进行多重协作。工程上有很多involvement,怎样组织多个工程团队共同工作,从而真正做到一个可大规模推广,大规模应用的程度,而不仅仅局限在实验室里。 

Alex: 可以分享下带领团队方面的心得么 

何晓冬 谈不上太多心得。就是一些个人小小的分享。比如说一个团队做事情,很多时候要给大家讲得很清楚,给大家一个统一的vision。这个事情的意义在什么地方,每个人为什么做这个事情,要让大家感到骄傲。明确purpose 同时feel proud of it. 让每个成员知道你做的这个事情将会很有影响力的。不是无足轻重,而是说目前你所从事的工作,在产业上,在本质上,在thought, leadership上都很领先的。像我们的情感客服是业界领先的大规模商用。小规模的可能有,但如此大规模的商用,京东应该是领先的。认识到这一点以后,每个工程师,每个团队成员,就可以更统一起来。

Alex:你觉得中国AI研究的优势在哪里呢? 

何晓冬 中国的优势在于可以很快的放大思想的影响力。中国规模非常大,以京东为例,京东能够服务超过3亿的消费者,他们每天都会在京东这个平台上进行大量的活动,所以算法和模型上的创新,可以很快被放大到整个平台上去。同时,另一方面,用户和算法模型之间的交互比如智能客服,会产生大量数据。这些数据可以刺激新的算法。这个交互循环会非常快,这是在中国做AI的一个优势。

Alex:能说说3-5年内,你的个人目标是什么吗

何晓冬 我个人希望看看AI能不能在典型的大规模产业化的基础上,落地并产生影响。大家知道AI经过几次寒冬,也经过几次高潮。我个人对这次的高潮更加乐观。因为AI要真正要落地才能对整个社会产生影响。这也是为什么像京东有那么长的链条,有那么多数据,是一个很好的落地机会。随后三到五年,我希望把研究方面或者技术方面的一些先进的技术和模型,真正的带到产业上进行落地。一方面验证或者促进研究,另一方面是希望提高这个产业本身,并引领产业的一些变革。

Alex:深度学习快速发展了一段时间,已经出现了很多framework和工具之类的,一些很多软件工程师,或者算法工程师做这些方面的应用技术也更加容易,甚至一些高中生也可以调整参数。既然如此,我们是否还需要昂贵的AI researcher

何晓冬 会调参数的高中生相当宝贵,如果有,立马把她找过来做我的实习生!从研究方面,我们对研究员提出的要求更高了,不是说把模块,或者神经层,往那一叠,就变成了一个新模型。要在算法上真正有创新。希望研究员们的创新可以带来更多深远的影响。 

Alex: 所以现在的工作更多的转向了engineering,理解市场,理解需求

何晓冬 对。我现在越来越关注这个方向。同时研究还是希望能继续保持,包括publication和参加学术会议,一方面知道最新的思想发展,另一方面也花一些精力看怎么样有可能在产业上产生影响,在实际过程中产生影响。

Alex: 根据你的经历,你看到深度学习技术本身,或者这个research,未来的研究方向有什么样的变化 

何晓冬 其实深度学习带来很多AI上的进步,但我们还有很多没有理解的地方。举个例子说,我们从感知,试别语音和图像,进化到认知,做阅读理解。实际上我们没有真正理解,人是怎么理解文字的。这可能还需要从认知(cognition)的角度来看,才能更深的理解这个问题。另一方面,我们也不知道人的大脑到底是怎么工作的,我们说神经网络,神经这个词我们是从大脑借过来的,但是并不知道大脑真正怎么工作。 

Alex:所以我们叫Artificial Intelligence 

何晓冬 所以那么现在可能是个机会,我们能不能真正理解大脑是的工作机制。如果能真正理解,会促进我们技术的提高。

Alex:其实更多的角度是从脑科学,或者cognitive science去借鉴一些方法

何晓冬 某些研究领域是这样。但是产业方面,我倒认为,随后看得见的10年之内,深度学习是一个主流的能够推动AI前进的核心方向。这个问题很简单,并不是说深度学习本身有什么magic,而是因为整个过去十年和随后十年,一个很大的趋势是计算力(computation power)在指数级别增长。数据,特别是无结构的文本,图像,也在指数级增长。从这两点,能take这两个benefit的模型,算法和技术,也会有一个指数级增长的机会。所以深度学习就正好有整个特性,有足够大的capacity,能够用到那么大的计算力量,同时又能够把这么多数据消化掉。从一个工程化,或者应用的角度看,这是深度学习的一个优势。从研究看,确实要懂,要理解是怎么回事,理解脑是怎么工作的,那是另外一个研究领域。

Alex: 感谢何博士对AI深度学习整体的介绍,从introduce语音识别自然语言处理,到现在做的在零售领域应用AI,做到情感交互机器人互动等各个领域的介绍。也感谢你分享了个人职业生涯上,从researcherleadertransition,包括他所做工作的不同transition。希望你在这方面能做出更多的成果,希望京东在AI落地上取得更多成果

何晓冬 非常感谢给我机会可以和大家进行交流。

Robinly
Robinly

Robinly团队坐标硅谷,从创业、领导力和人工智能三个角度去剖析成功创业者、高科技领导者、人工智能科学家和知名投资人的职业养成过程和他们对于这些领域的观点,我们力求追本溯源,为广大工程师、研究者提供一手的职业学习内容。

http://www.robin.ly
专栏二维码
产业智能客服机器翻译自然语言处理深度学习图像识别何晓冬语音识别
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
邓力人物

邓力,本科毕业于中国科学技术大学,随后在威斯康星大学麦迪逊分校获的硕士和博士学位。曾任微软人工智能首席科学家。邓力2009 年就同 Geoffrey Hinton 教授合作,首次提出并将深度神经网络应用到大规模语言识别中,显著提高了机器对语音的识别率,极大推动了人机交互领域的发展与进步。2017年5月,他加入了市值300亿美元的对冲基金Citadel并担任首席人工智能官。

俞栋人物

俞栋,语音识别与深度学习领域的专家,现任腾讯AI Lab(人工智能实验室)副主任。俞栋曾在语音识别领域出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。

所属机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

马尔可夫模型技术

「马尔可夫模型」是指基于马尔可夫性质的模型,其假设一个给定过程的未来状态仅取决于当前状态。根据系统状态是否完全可被观测以及系统是自动的还是受控的,可以将常见的马尔可夫模型分成四种:马尔可夫链、隐马尔可夫模型(HMM)、马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP)。另外还有马尔可夫随机场(MRF)和马尔可夫链蒙特卡洛(MCMC)这两个模型也常常被用于近似和预测。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~