香侬科技独家对话斯坦福大学计算机系教授Percy Liang

本文是香侬科技对斯坦福大学计算机系助理教授、斯坦福人工智能实验室成员 Percy Liang 的专访,主要讨论了 Percy Liang 教授在 NLP 领域的研究、个人经历等。

斯坦福大学计算机系助理教授、斯坦福人工智能实验室成员 Percy Liang 主要研究方向为自然语言处理(对话系统,语义分析等方向)及机器学习理论,他与他的学生合作的论文刚刚获得 ACL 2018 短论文奖,其本人亦是 2016 年 IJCAI 计算机和思想奖(Computers and Thought Award)得主。Percy 的团队推出的 SQuAD 阅读理解挑战赛是行业内公认的机器阅读理解标准水平测试,也是该领域的顶级赛事,被誉为机器阅读理解界的 ImageNet(图像识别领域的顶级赛事)。参赛者来自全球学术界和产业界的研究团队,包括微软亚洲研究院、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基 · 梅隆大学、斯坦福大学等知名企业研究机构和高校,赛事对自然语言理解的进步有重要的推动作用。

香侬科技:SQuaD (The Stanford Question Answering Dataset) 在推进机器阅读理解和问答领域非常成功。然而,除了可以被 NLP 研究者用来开发更好的阅读理解系统,你认为这个数据集是否潜藏着其他机会?

图 1. SQuaD 中的样本举例

Percy:虽然 SQuaD(实际上,任何阅读理解数据集)名义上都是关于阅读理解的,但我认为它们可以有两个方面更广泛的影响:第一,数据集鼓励人们开发新的通用模型。例如,神经机器翻译产生了基于注意力的模型,这在机器学习领域里如今已成为最常见的模型之一。第二,在一个数据集上训练的模型对其他任务是有价值的。例如,在 ImageNet 上训练卷积神经网络,模型会学习到可用于各种视觉问题的通用图像特征。SQuaD 所带来的影响与上面列出的两个例子类似(尽管可能不及它们那么大)。SQuaD 已经达到了极限,因为多个系统已经超过了这个数据集上的人类水平。但是,正如 Robin Jia 和我在 EMNLP 2017 的一篇论文中所展示的那样,这样的系统可以很容易地被对抗样本所愚弄,在即将到来的 ACL 2018 中,我们有一篇论文将发布 SQuaD 2.0,它包含 5 万个额外的问题,它们看起来像是有答案的问题,但实际上没有答案。希望这样一个新的数据集,与最新层出不穷的其他数据集(例如,RACE、TriviaQA 等)的出现,将有助于推动该领域的进步。

香侬科技:过去您和您的学生已经做了许多非常有影响力的关于人工智能安全的工作(Raghunathan et al. ICLR 2018,Steinhardt et al. NIPS 2017)。同时,您还对神经网络的可解释性进行了研究,包括 Koh et al., ICML 2017 最佳论文)。您认为提高深度神经网络的解释性有助于解决人工智能的安全问题吗?为什么?

Percy:到目前为止,人工智能研究的主要驱动力一直是获得预测更准确的模型。但是,最近可解释性和鲁棒性 / 安全性的问题得到了更多的关注,我认为这是特别重要的,因为机器学习现在的很多应用往往涉及生命安全,非同儿戏。如自主驾驶、医疗保健等。然而,可解释性和鲁棒性是模糊的术语,人们对它们并没有统一的定义。在这一点上,我认为仍然有许多概念性工作要做,使这些术语形式化,这样人们才可以做出可量化的进步。我们已经通过使用影响函数(influence functions,Koh et al. ICML 2017)和半定松弛(Raghunathan et al. ICLR 2018)在形式化这些术语方面取得了一些初步的进展,而这两种方法都是统计和优化的经典工具。我认为机器学习仍然是一种「雏形」阶段;它距离成为一个成熟的工程学科还有一段路程要走。

香侬科技:您的许多自然语言处理研究与人类语言处理有着密切的联系(例如,Wang et al., ACL 2016 杰出论文奖:通过人机交互使机器从零开始学习语言,He et al. ACL 2017: 通过学习动态知识图谱嵌入来构建对称合作型聊天机器人)。您认为理解人类语言处理在何种程度上会帮助我们建立更好的机器语言处理系统?

图 2. Wang et al. ACL 2016 中的 SHRDLURN 语言游戏。机器需通过与人交互从零开始学习语言。

Percy:的确,我们有很多情况下利用众包或直接让模型与人类交互来学习语言,这是因为从根本上讲,语言是关于与人的交流的。有时候,我觉得这一点在 NLP 社区中是缺失的。现在大部分的工作都是基于大数据的任务——机器翻译、问答、信息提取。这与人类如何通过语言来学习新的知识能力,和完成任务有很大的不同。我认为,理解语言的目的不是简简单单地模仿人类。而是,如果我们想要建立可以与人类互动的系统,这些系统从根本上需要理解人类是如何思考和行动的,至少是在行为层面上。沟通和语言并不仅仅是关于词语,而是关于词语背后的个体和他们的目标。

香侬科技:正如您在您的网站上提到的,您是一个强烈支持高效和可重复性研究的人。您一直在致力于开发 CodaLab Worksheets,这是可以使研究人员完整记录一个实验从原始数据到最终结果的全过程的平台。您认为在机器学习中可重复性研究的最大障碍是什么?我们应该怎么突破它们?

图 3. CodaLab 工作原理。详情见 CodaLab 官方网站:https://worksheets.codalab.org/。

Percy:可重复性在所有科学领域都是一个巨大的问题,人工智能也不例外,虽然我认为作为人工智能研究者,我们真的没有任何借口——这一切只是在数据上跑代码。这个领域确实在开放代码和数据上有了很大的进步,但是往往代码和数据是不足以再现一篇论文的结果的,因为代码是如何运行的可能没有被记录下来。CodaLab 通过跟踪代码实际执行的整个过程,可以保证最终结果是由该代码和数据产生的。我们试图使 CodaLab 尽可能方便易用——人们可以使用任何编程语言、数据格式等。然而,挑战仍然存在:人们还没有足够的动力去达到这种程度的可重复性。即使大家都知道,这样其实是更好的,因为存在网络效应——如果每个人都是用 CodaLab 来达到更高的可重复性,那么在别人的工作基础上开发自己的模型就会容易得多,而且研究的速度也会大大加快。我认为这一切只是时间的问题。

香侬科技:在加入斯坦福大学之前,您从加州大学伯克利分校获得博士学位,并在谷歌做过一段时间博士后。作为一个机器学习的研究者,您的思维方式是如何随着时间的推移而改变的?

Percy:当我读博士的时候,我非常喜欢机器学习的建模、算法和分析。但是我意识到即使是很强的算法也是有局限性的:你会看到系统所犯的错误,然后你意识到如果只有一个固定的数据集你可能就是做不出来最完善的算法。后来我在斯坦福大学的时候(也是部分源于我在谷歌的时间的影响),我开始将数据 - 建模两件事放在一起思考。尽管人们可能认为不存在数据短缺的问题(毕竟,这不是大数据时代吗),事实上,拥有大量的好用的数据仍是一个挑战。我们已经提出了许多能够改变这一问题的方法(例如,在 Wang et al., ACL 2015 中,我们有一篇论文研究了如何通过让人们改述句子而不是注释逻辑形式的方式来构建语义分析器)。把数据和建模放在一起思考可以拓宽解决方案的各种可能,让你更有创造力。

图 4. 通过让人们改述句子而不是注释逻辑形式的方式来快速构建语义分析器(图片来源于 Wang et al., ACL 2015)。

香侬科技:作为一个机器学习的研究者,您认为最令人兴奋的是什么事情?

Percy:研究机器学习使你既能思考潜在的数学原理,又能思考如何对社会产生真正的积极影响。

香侬科技:作为一个机器学习的研究者,您认为最令人沮丧的是什么事情?

Percy:有时你只是在黑暗中探险。你看到一个系统的错误,你会做一些试图修复它们的事情,然而并没有什么改进。在某种意义上,当你不理解一个东西的内在机制时,你才会使用机器学习,因为这个东西的机制太复杂了(不然的话你就直接写一个程序了)。

香侬科技:刚进入 NLP 领域的学生来说,该如何培养对于科研项目的品味?

Percy:学习基本原理并广泛阅读,尤其是在 NLP 和 AI 之外,你永远不知道从编程语言、语言学、认知科学、优化、统计学中得到的想法是否与你正在做的事情有关。人总是很容易被那些很酷炫的模型带偏,会在自己的研究中加入各种华丽复杂的算法 -- 你应该试图做相反的事情:用简单的方法解决问题比用复杂的方法解决问题更令人叹服。

选择一个你心怀信仰的问题,并满怀激情去探索它。你会知道是它,因为它会让你夜不能寐,一直想一直想。把这个问题变成一个属于你的问题,你的私人珍藏。

香侬科技是一家深耕金融领域的人工智能公司,旨在利用机器学习和人工智能算法提取、整合、分析海量金融信息,让 AI 为金融各领域赋能。

公司在 2017 年 12 月创立,获红杉中国基金独家数千万元融资。创始人之一李纪为是斯坦福大学计算机专业历史上第一位仅用三年时间就获得博士的人。过去三年 Google ScholarCitation>1,800,h-index 达 21。公司硕士以上比例为 100%,博士占比超 30%,成员皆来自斯坦福、MIT、CMU、Princeton、北京大学、清华大学、人民大学、南开大学等国内外知名学府。

《香侬说》是香侬科技微信公众号打造的一款以机器学习自然语言处理为专题的访谈节目。由斯坦福大学,麻省理工学院, 卡耐基梅隆大学,剑桥大学等知名大学计算机系博士生组成的「香侬智囊」撰写问题,采访顶尖科研机构(斯坦福大学,麻省理工学院,卡耐基梅隆大学,谷歌,DeepMind,微软研究院,OpenAI 等)中人工智能与自然语言处理领域的学术大牛, 以及在博士期间就做出开创性工作而直接进入顶级名校任教职的学术新星,分享他们广为人知的工作背后的灵感以及对相关领域大方向的把控。本期采访嘉宾是斯坦福大学计算机系教授 Percy Liang。随后我们计划陆续推出 Eduard Hovy (卡耐基梅隆大学), Dan Jurafsky (斯坦福大学), Anna Korhonen (剑桥大学), Andrew Ng (斯坦福大学), Ilya Sukskever (OpenAI),William Yang Wang (加州大学圣芭芭拉分校), Jason Weston (Facebook 人工智能研究院), Steve Young (剑桥大学) 等人的访谈,敬请期待。

理论
1
相关数据
对抗样本技术
Adversarial examples

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经机器翻译技术
Neural Machine Translation

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聊天机器人技术
Chatbot

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

知识图谱技术
Knowledge graph

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

人机交互技术
Human-computer interaction

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

机器翻译技术
Machine translation

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

问答系统技术
Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
2015年自然语言处理实证方法会议(EMNLP)简介
机器之心
深度强化学习综述:从AlphaGo背后的力量到学习资源分享
机器之心2
深度强化学习的 18 个关键问题
PaperWeekly3
返回顶部