机器之心编辑部报道

出身清华姚班,斯坦福博士毕业,她的毕业论文成了「爆款」

很少有人的博士论文能够成为「爆款文章」,但陈丹琦做到了。这位近日从斯坦福毕业的计算机科学博士引发了人们的广泛关注。据斯坦福大学图书馆介绍,她长达 156 页的毕业论文《Neural Reading Comprehension and Beyond》上传仅四天就获得了上千次的阅读量,成为了斯坦福大学近十年来最热门的毕业论文之一。

斯坦福大学还因此对陈丹琦进行了一次简单采访。

陈丹琦激动人心的研究迅速在社交网络和其他专注机器学习的新闻网站上传播。她的指导老师——斯坦福 AI 实验室负责人人工智能领域著名学者、斯坦福大学语言学和计算机科学教授克里斯托弗·曼宁(Christopher Manning)在采访中表示:「陈丹琦是使用神经网络方法解决自然语言理解问题方面的先驱。她简单、干净、高成功率的模型吸引了众人的目光……她的这篇毕业论文主要研究神经网络阅读理解和问答,这些新兴技术正在带来更好的信息访问方式——它可以让计算机系统可以真正回答你的实际问题,而不是简单地返回文档搜索结果。」

陈丹琦目前正在访问 Facebook 人工智能研究院 Facebook AI Research 和华盛顿大学,在今年秋季,她即将前往普林斯顿大学计算机科学系担任助理教授。

在毕业于斯坦福大学之前,陈丹琦于 2012 年毕业于清华学堂计算机科学实验班(姚班)。值得一提的是,她在高中(长沙市雅礼中学)参加信息学国家队集训期间提出了 cdq 分治算法,用于处理一类分治问题;在高中期间她还发明了插头 DP,主要用于解决数据规模小的棋盘模型路径问题。大牛果然在高中期间就已经「起飞」了。

陈丹琦获得的荣誉和参与的研究还有很多。2010 年,她获得了 ACM ICPC 国际大学生程序设计竞赛全球总决赛银牌。在斯坦福期间,她在 2014 年发表的论文《A Fast and Accurate Dependency Parser using Neural Networks》堪称深度学习依存分析方法的「开山之作」,她和曼宁教授提出的方法在保持精度的前提下,将解析速度提高了 60 倍。

热门的博士毕业论文

这篇毕业论文名为《Neural Reading Comprehension and Beyond》,描述了她在博士期间的三个重要研究,以解决「人工智能中最难以捉摸和长期存在的挑战之一」:如何让机器学会理解人类语言。让我们看看她的毕业论文究竟说了什么。

论文链接:https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf

摘要

教机器学会理解人类语言文本是人工智能领域最困难的长期挑战之一。本论文致力于解决阅读理解问题,即如何构建一个计算机系统来阅读一段文本并回答理解问题。一方面,我们认为阅读理解是衡量计算机系统理解人类语言程度的重要任务。另一方面,如果我们可以构建高性能的阅读理解系统,那么这些系统就会成为问答、对话系统等应用的关键技术。

本论文聚焦于神经阅读理解,这是一类构建在深度神经网络之上的阅读理解模型。与基于特征的手工传统模型相比,这些端到端的神经模型已被证明在学习丰富的语言现象方面更加有效,在所有现有阅读理解基准测试中都有大幅度的提高。

本论文包含两个部分。第一部分旨在概括神经阅读理解的本质并展示我们在构建高效神经阅读理解模型方面所做的工作。更重要的是了解神经阅读理解模型实际上学习了什么,以及解决当前任务需要怎样的语言理解深度。我们还总结了该领域的当前进展并讨论了未来的发展方向以及一些待解决的问题。

第二部分将探讨如何基于神经阅读理解的当前成果构建实际应用。我们开拓了两个研究方向:1)我们如何将信息检索技术与神经阅读理解相结合,来解决大型开放域问答问题;2)我们如何从当前基于跨距的(span-based)单轮(single-turn)阅读理解模型构建对话问答系统。我们在 DRQA 和 COQA 项目中实现了这些想法,证明了这些方法的有效性。我们相信,这些技术对于未来的语言技术将非常有帮助。

动机

让机器学会理解人类语言文本是人工智能领域最难的长期挑战之一。在开始做这件事之前,我们必须要知道理解人类语言意味着什么?图 1.1 展示了 MCTEST 数据集(Richardson et al., 2013)中的一个儿童故事,只有简单的词汇和语法。为了处理这样一段文字,NLP 社区花费了数十年的精力来解决各种不同的文本理解任务,包括:

a)词性标注。它要求机器理解这些东西:如在第一个句子「Alyssa got to the beach after a long trip」中,Alyssa 是专有名词,beach 和 trip 是普通名词,got 是动词的过去式,long 是形容词,after 是介词。

b)命名实体识别。机器要能够理解 Alyssa、Ellen、Kristen 是人名,Charlotte、Atlanta、Miami 是地名。

c)句法分析。为了理解每句话的含义,机器需要理解单词之间的关系,或句法(语法)结构。还是以第一句话为例,机器要能够理解 Alyssa 是主语,beach 是动词 got 的宾语,而 after a long trip 是介词短语,描述了和动词的时间关系。

d)共指消解(coreference resolution)此外,机器甚至还要理解句子之间的相互作用。例如,句子「She's now in Miami」中的 she 指的是第一句话中提到的 Alyssa,而第六行中的「The girls」指的是前面提到的 Alyssa、Ellen、Kristen 和 Rachel。

是否有全面的评估方法来测试所有这些方面并探索更深层次的理解呢?我们认为阅读理解任务(根据一段文字回答理解问题)就是一个合适又重要的方法。正如我们会用阅读理解来测试人们对一段文本的理解程度,我们认为它同样能够用来测试计算机系统对人类语言的理解程度。

我们可以看看基于相同段落(图 1.1)提出的一些阅读理解问题:

a)要回答第一个问题「What city is Alyssa in?」机器要找到句子「She's now in Miami」并解决「She 指的是 Alyssa」这个共指消解问题,最后再给出正确答案「Miami」。

b)对于第二个问题「What did Alyssa eat at the restaurant?」,机器首先要找到句子:「The restaurant had a special on catfish.」和「Alyssa enjoyed the restaurant's special.」,然后理解第二个句子中 Alyssa 吃的 special 就是第一个句子中的 special。而第一个句子中 special 提到的是 catfish,所以最终正确答案是 catfish。

c)最后一个问题比较有难度。为了正确回答该问题,机器要找出该段落中提到的所有人名及其之间的关系,然后进行算术推理(arithmetic reasoning),最终给出答案「3」。

可以看到,计算机系统要了解文本的各个方面才能正确回答这些问题。因为问题可以被设计为询问那些我们关心的方面,阅读理解应该是用来评估语言理解程度的最合适任务。这也是本文的中心主题。

在本文中,我们研究了这样一个阅读理解问题:我们该如何构建计算机系统来阅读文章并回答这些理解问题?尤其是,我们重点关注神经阅读理解——一种用深度神经网络构建的阅读理解模型,该模型被证明比基于特征的非神经模型更有效。

阅读理解领域历史悠久。早在 20 世纪 70 年代,研究人员就已经认识到它是测试计算机程序语言理解能力的重要方法 (Lehnert, 1977)。但是,它却被忽视了数十年,直到最近才获得了大量关注并取得了快速的进展(如图 2.1 所示),包括我们将在本文详述的工作。阅读理解近期取得的成功可以归功于两方面:

  • 从(文章、问题、答案)三个方面创建的大规模监督数据集;

  • 神经阅读理解模型的发展。

图 1.2:谷歌上的搜索结果。它不仅返回了搜索文档列表,还给出了文档中更精确的答案。

本文涵盖了当代神经阅读理解的本质:问题的形式,这些系统的组成部分和关键成分,以及对当前神经阅读理解系统优势和弊端的理解。

本文的第二个中心主题是,我们坚信,如果可以构建高性能的阅读理解系统,那这些系统将是建立诸如问答和对话系统等应用的关键技术。事实上,这些语言技术已经与我们的日常生活息息相关了。例如,我们在谷歌上搜索「有多少人在斯坦福大学工作?」(图 1.2),谷歌将不仅返回文档列表,还会阅读这些网页文档并突出显示最可靠的答案,并将它们展示在搜索结果的顶部。这正是阅读理解可以帮助我们的地方,使搜索引擎变得更加智能。而且,随着数字个人助理(如 Alexa、Siri、谷歌助手或者 Cortana)的发展,越来越多的用户通过对话和询问信息问题来使用这些设备。我们相信,构建能够阅读和理解文本的机器也将大大提升这些个人助理的能力。

因此,如何根据神经阅读理解近期取得的成功来创建实际应用程序也是我们感兴趣的一方面。我们探索了两个将神经阅读理解作为关键组成部分的研究方向:


开放域问答结合了来自信息检索与阅读理解的挑战,旨在回答来自网络或大型百科全书(如维基百科)的一般性问题。

对话式问答结合了来自对话和阅读理解的挑战,解决了一段文字中的多轮问答问题,比如用户如何与智能体互动对话。图 1.3 展示了来自 COQA 数据集 (Reddy et al., 2019) 的一个示例。在该例子中,一个人可以基于 CNN 文章内容提出一系列相互关联的问题。

图 2.2:论文整理了神经阅读理解中数据集(黑色)和模型(蓝色)的最新重要进展。在这个表中,除 BERT (Devlin et al., 2018) 外,以相应论文的发表日期排序。

六年博士心路历程

在博士论文中,陈丹琦也介绍了自己博士期间的学习经历,感谢了在前进过程中给予了她极大帮助的一批人,包括父母、老师、爱人、朋友。机器之心编译介绍了致谢中的部分内容,让我们一窥优秀的人砥砺前行的历程:

对于我来说,在斯坦福的六年是一段难忘的宝贵经历。2012 年刚开始读博的时候,我甚至都不能说出流利的英语(按照要求,我要在斯坦福修 5 门英语课程),对这个国家也知之甚少,甚至从未听说过「自然语言处理」这一概念。不可思议的是,在过去的几年里我竟然一直在做语言方面的研究,训练计算机系统理解人类语言(多数情况下是英语),我自己也在学习用英语进行沟通、写作。同时,2012 年也是深度神经网络开始起飞并主导几乎所有我们今天看到的人工智能应用的一年。我从一开始就见证了人工智能的快速发展,并为即将成为这一浪潮的一份子而感到兴奋(有时是恐慌)。如果没有那么多人的帮助和支持,我也不可能走到今天。我由衷地感谢他们。

首先要感谢的是我的导师克里斯托弗·曼宁。我刚来斯坦福的时候还不知道 Chris。直到和他一起工作了几年、学了 NLP 之后,我才意识到自己何其荣幸,能够和这一领域如此杰出的人才共事。他对这一领域总是充满洞察力,而且非常注重细节,还能很好地理解问题的本质。更重要的是,Chris 是一个非常善良、体贴、乐于助人的导师。有师如此,别无他求。他就像我的一位老友(如果他不介意我这么说的话),我可以在他面前畅所欲言。他一直对我抱有信心,即使有时候我自己都没有自信。我一直都会对他抱有感激,甚至现在已经开始想念他了。

除了 Chris,我还想感谢 Dan Jurafsky 和 Percy Liang——斯坦福 NLP Group 的另外两位杰出人才————他们是我论文委员会的成员,在我的博士学习期间给予了我很多指导和帮助。Dan 是一位非常有魅力、热情、博学的人,每次和他交谈之后我都感觉自己的激情被点燃了。Percy 是一位超人,是所有 NLP 博士生的榜样(至少是我的榜样)。我无法理解一个人怎么可以同时完成那么多工作,本论文的很大一部分都是以他的研究为基础进行的。感谢 Chris、Dan 和 Percy 创建了斯坦福 NLP Group,这是我在斯坦福的家,我很荣幸成为这个大家庭的一员。

此外,Luke Zettlemoyer 成为我的论文委员会成员也让我感到万分荣幸。本论文呈现的工作与他的研究密切相关,我从他的论文中学到了很多东西。我期待在不远的将来与他一起共事。

读博期间,我在微软研究院和 Facebook AI Research 获得了两份很棒的实习经历。感谢 Kristina Toutanova、Antoine Bordes 和 Jason Weston 在实习期间给予我的指导。我在 Facebook 的实习项目最终给了我参与 DRQA 项目的契机,也成为了本论文的一部分。感谢微软和 Facebook 给予我奖学金。

我要感谢我的父母 Zhi Chen 和 Hongmei Wang。和这一代大多数中国学生一样,我是家里的独生子女。我和父母的关系非常亲密,即使我们之间有着十几个小时的时差而我每年只能挤出 2-3 周的时间来陪他们。是他们塑造了今天的我,廿载深恩,无以为报,只希望我目前所取得的一切能够让他们感到一丝骄傲和自豪吧。

最后,在这里我要感谢俞华程对我的爱与支持(我们在这篇博士毕业论文提交之前 4 个月结婚了)。我在 15 岁时遇见了华程,从那时起我们一起经历了几乎所有的事情:从高中的编程竞赛到清华大学美好的大学时光,然后又在 2012 年共同进入斯坦福大学攻读计算机科学博士学位。在过去的十年里,他不仅是我的伴侣、我的同学、我最好的朋友,也是我最钦佩的人,因为他时刻保持谦虚、聪慧、专注与努力。没有他,我就不会来到斯坦福。没有他,我也不会获得普林斯顿的职位。感谢他为我所做的一切。

致我的父母和俞华程,感谢他们无条件的爱。

参考内容:https://library.stanford.edu/blogs/digital-library-blog/2019/01/sdr-deposit-month-dissertation-ai-breakthrough-makes-leaderboard

入门陈丹琦清华大学斯坦福大学NLP
83
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
克里斯托弗·曼宁人物

现任斯坦福大学教授、斯坦福自然语言处理组负责人。Christopher Manning是自然语言处理领域著名学者,是国际计算机学会(ACM)、国际人工智协会(AAAI)、国际计算语言学会(ACL)等国际权威学术组织的会士,曾获ACL、EMNLP、COLING、CHI等国际顶会最佳论文奖,著有《统计自然语言处理基础》、《信息检索导论》等自然语言处理著名教材。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

用小程序来做内容,牛! 当然,这个女博士更牛!
测试
惊艳!