香侬科技独家对话斯坦福大学计算机学院教授、麦克阿瑟天才奖得主Dan Jurafsky

斯坦福大学计算机学院教授 Dan Jurafsky 是自然语言处理领域泰斗,他所著的《语音与语言处理》一书,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。Dan Jurafsky 曾在 ACL 2006、EMNLP 2013、WWW 2013 获最佳论文奖,在 2002 年获得麦克阿瑟天才奖(美国跨领域最高奖项),2017 年获得美国科学院 Cozzarelli 奖,2015 年获得古尔德奖。Dan Jurafsky 教授在 Google Scholar 上引用量超过3万,h-index 达 75。他的主要研究方向有自然语言理解、对话系统、人与机器语言处理之间的关系等,并一直尝试运用自然语言处理方法来解决社会学和行为学问题。同时,他还对食物语言学以及中文有着极大的兴趣,他所著的科普图书《食物的语言—从语言学家角度读菜单》被翻译成多国语言,荣获2015国际畅销书榜首,并获 2015 年 James Beard Award 提名。

图 1. 斯坦福大学计算机学院终身教授 Dan Jurafsky 早在 80 年代就与中国结下了不解之缘。图为他 1985 年在北京大学进修中文时的留影(第二排右二即是青年时代的 Dan Jurafsky)。图片来源于Jurafsky 教授的个人主页 https://web.stanford.edu/~jurafsky/

香侬科技:您现正在编辑《语音和语言处理》的第三版,这本书是自然语言处理(Natural Language Processing, NLP)领域使用最广泛的教科书,编辑的过程中,您对过去几年自然语言处理领域的变化总体上有何体会?最令人兴奋的事是什么?最令人失望的事又是什么(如果有的话)?

图2. Dan Jurafsky 与 James Martin 所著的《语音和语言处理》一书,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。

Jurafsky:能在这个时代身处这个领域是一件令人激动的事!当然,我会为深度学习感到特别的兴奋,而我觉得最值得期待的是自然语言生成方面将发生的巨大改变,这是一个很有潜力的领域,却在自然语言处理中被边缘化了太久的时间。另外,嵌入,特别是基于上下文的嵌入(embedding/contextualized embedding)的使用也令人兴奋不已,它让我们得以构造模型来捕捉词义在不同时间、空间,语境中的动态变化。另外一件事是人们对NLP领域的社会性有了日渐提高的觉知:人们既意识到模型存在一定的偏见,也意识到这些模型可以用来模拟和理解人与人之间的互动,进而将这个世界变得更好。

香侬科技:许多 NLP 研究人员都有很强的语言学背景,甚至本身就来自该领域。然而,随着深度学习的方法在 NLP 中变得越来越主导,有人说(这甚至可以算得上一种趋势)语言学知识不再是进行 NLP 研究的必要条件:只要训练一个双向长短时记忆循环神经网络(bidirectional LSTM RNN)就足够了。您能评价下这一说法吗?另外,您如何评价 Frederick Jelinek 教授的名言“每次我解雇一个语言学家时,我的语音识别器的性能都会提高”?

Jurafsky:我坚定地相信,想要为一个知识领域做出贡献,充分了解这个领域是有帮助的,所以我认为 NLP 研究人员深刻地理解语言的功能,以及熟悉各类语言现象,比如:指代、组合性、变异、语法结构、隐含意义、情感、语言风格、对话互动等仍是至关重要的。但理解语言和语言现象并不意味着盲目地套用不恰当的语言学模型。Jelinek 教授的那句话(他曾告诉我他的原话其实更加婉转:「每个语言学家离开团队时模型的识别率都会上升」)实际上是指语音识别中的发音建模。事实证明(并且现在仍然正确)在拥有足够的数据时,机器学习能够比人工定义语音规则更好地解决语音多样性的问题。

所以我认为这个领域未来仍将是机器学习与语言结构、知识的不断融合,而每个研究人员将在不同时间不同情况下决定如何分配这两个重要组成部分的权重

香侬科技:从历史的角度来看,重大的突破通常首先在语音处理中发生,然后传播到自然语言处理领域。例如:在 20 世纪 90 年代早期,来自语音领域的 Peter Brown 和 Robert Mercer 将统计机器学习模型引入 NLP 领域,从而彻底改变了该领域; 而深度学习方法是首先在 2012 年被微软研究院科学家邓力等人应用在语音领域并取得突破性进展,而在 NLP 中大规模使用深度学习要到 2013-2014 年。回顾这些,您能解释为什么会发生这种情况吗,还是说它只是巧合?

Jurafsky:正如你所说,统计模型确实是从语音领域传播到 NLP,深度学习也是从语音和视觉领域传播到 NLP。我认为这根本不是巧合,一般来说创新来自于在不同领域工作的人一起工作时的结合。对诺贝尔奖获得者的研究表明,他们往往是“搭桥者”—将不同领域的方法联系在一起。因此,我对年轻学者的建议是多利用跨学科的联系,与相关但不同领域的人交谈。这就是重大突破诞生的方式。

香侬科技:您在博士后阶段做了 3 年的语音处理研究。您能描述一下这些年的研究是如何影响了您在 NLP 领域的研究生涯吗?

Jurafsky:它的影响是非常巨大的。我的博士后是在 1992-1995 年,正是机器学习、概率理论(probability theory)、图模型(graphical model)、神经网络(neural network)以及早期版本的嵌入(embedding)同时进入 NLP 的时期。我很幸运能够在加州大学伯克利分校国际计算机科学研究所(ICSI - UC Berkeley)的一个语音识别神经网络实验室攻读博士后,并与 Nelson Morgan 和 Jerry Feldman 合作。那个实验室对我有着重要的意义,我的导师们对 NLP 领域的「大熔炉」观点对我产生了非常大的影响:你必须重视文本、语音、对话以及认知科学,给予它们和工程学一样多的思考。

我们当时不知道什么会成为最主流的模型,是机器学习这个大领域,还是具体的图模型或神经网络。当时,因为没有足够多的 GPU,训练神经网络要慢得多,所以实验室必须搭建自己的向量处理器,而一个有着 4000 个单元的隐藏层的语音识别网络在当时是非常巨大的神经网络,要花极久的时间来训练。如果你当时让我预测,我不会预想到深度学习二十年之后会是今天这样的局面。有趣的是,我和 Martin 写的《语音和语言处理》教科书的第一版仅仅介绍了神经网络作为语音识别算法;在第二版,我们删除了神经网络,转而使用高斯模型,而在第三版中,我们又把神经网络加回来了!

香侬科技:在过去,您和您的学生使用 NLP 技术研究了许多社会科学中的重要问题(例如,Garg et al. PNAS 2018; Voigt et al. PNAS 2017, Winner of Cozzarelli Prize)。您对于想要进行更多这样跨学科研究的NLP研究人员有哪些建议呢? 

图 3. Voigt et al. PNAS 2017 中 Dan Jurafsky 的实验室与斯坦福大学心理系合作,利用自然语言处理方法,自动评估警察对不同种族的人说话时的尊重程度。图片来源于 Voigt et al. PNAS 2017。

Jurafsky:我们应该多跟社会科学家交流!我认为,如果你要研究与人类有关的任何东西,与社会科学专家合作这一点非常重要!社会科学专家不仅有着更多关于人和社会关系的思考,而且与计算机科学家相比,他们往往在统计和因果推理方面更有经验。再次强调,是跨学科引发了创新!

香侬科技:近年来,人们对机器学习的模型中的偏见有很多担忧。这个问题似乎在NLP领域格外突出,因为在自然环境(例如,twitter)中收集的数据不可避免地包含偏见(性别歧视,种族歧视等)。盲目地用这些数据训练深度神经网络将导致有偏见的模型预测。您怎么看待这一问题?

Jurafsky:是的,现在每天有数百万,甚至是数十亿人在使用 NLP 工具,如机器翻译信息抽取、自动推荐等等,这是激动人心的进展。但是正像你所说,这些广泛的应用是有副作用的!NLP 的工作在道德层面上是影响社会的,越来越多的人,包括这个领域的年轻从业者以及我们科学和技术的消费者正在更多地关注这些影响。

我很高兴我们终于开始正视这些问题!也许我们可以向那些长期以来必须面对这些道德困境和社会挑战的领域学习,比如:医药学、核物理学、生物学、社会科学等。你问我当需要权衡准确性与偏见时应该做些什么,我的答案是我们需要时时扪心自问:我们工作的终极目标是什么。我们现在意识到,这个终极目标绝不仅仅是为了提高准确性或速度,而是真正让世界变得更美好。这是一个模糊的答案,需要结合具体的算法或任务来实践,但是希望我们能够成功!

香侬科技 (http://shannon.ai/) ,是一家深耕金融领域的人工智能公司,旨在利用机器学习和人工智能算法提取、整合、分析海量金融信息,让 AI 为金融各领域赋能。

香侬科技在 2017 年 12 月创立,获红杉中国基金独家数千万元融资。创始人之一李纪为是斯坦福大学计算机专业历史上第一位仅用三年时间就获得博士的人。在近日由剑桥大学研究员 Marek Rei 发布的一项统计中,李纪为博士在最近三年世界所有人工智能研究者中,以第一作者发表的顶级会议文章数量高居第一位。公司硕士以上比例为 100%,博士占比超 30%,成员皆来自斯坦福、MIT、CMU、Princeton、北京大学、清华大学、人民大学、南开大学等国内外知名学府。

参考文献:

  • Jurafsky D and Martin J H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition[M]. Second Edition. 2009, Prentice-Hall.

  • Jurafsky, D. 2014. The Language of Food: A Linguist Reads the Menu[M]. Norton.

  • Garg N et al. Word embeddings quantify 100 years of gender and ethnic stereotypes[J]. Proceedings of the National Academy of Sciences, 2018, 115(16): E3635-E3644.

  • Voigt R et al. Language from police body camera footage shows racial disparities in officer respect[J]. Proceedings of the National Academy of Sciences, 2017, 114(25): 6521-6526.

产业斯坦福大学Dan Jurafsky自然语言处理
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~