专访哈工大刘挺教授:自然语言处理迎来黄金时代


在 11 月 7 日举行的微软 21 世纪计算大会上,来自哈尔滨工业大学的刘挺教授向我们介绍了中文信息处理技术的前沿进展。演讲过后,机器之心对刘教授进行了专访,他与我们聊到了哈工大近期在 AI 上的研究,国内外 NLP 技术的发展,以及哈工大人工智能研究院的愿景。


刘挺对于国内年轻学者的研究提出了建议,也对目前顶会论文「注水」的现象发表了看法。他还表示,明年哈工大很有可能就会开始招收人工智能专业的本科生了。

刘挺教授是国内自然语言处理(NLP)领域的领军人物,任哈尔滨工业大学人工智能研究院副院长、计算机学院社会计算与信息检索研究中心主任。刘挺是国家「万人计划」科技创新领军人才,教育部人工智能科技创新专家组成员,主要研究方向为人工智能自然语言处理和社会计算。其所带领的哈工大社会计算与信息检索研究中心(HIT-SCIR)是目前国内顶尖的 NLP 研究机构之一。

刘挺教授

以下采访内容进行了部分整理。

有关哈工大 SCIR

机器之心:作为国内顶尖的 AI 实验室,哈工大社会计算与信息检索研究中心(HIT-SCIR)近期有哪些新研究?

刘挺我们最近进行了一些有趣的研究。首先是提出了事理图谱,常规知识图谱的每一个节点可以是名词(实体或概念),但在很多时候,我们需要去了解一些事件之间的关系,我们称之为事理。

现在我们说的深度学习缺少可解释性,事理分析可以帮助我们解释推断的原因。这是我们最近研究的一个重点,也得到了大家的认可。但目前事理分析的方向还有存在很多挑战,我们欢迎更多的业界的同仁和我们一道继续讨论这个方向。

第二个研究有关语义理解。哈工大的句法分析技术在 2018 年的 CoNLL 国际句法分析评测中,针对 57 种语言取得世界第一的成绩,超过了斯坦福、IBM 等大学和公司。尽管如此,用同样的算法在中文和在英文上做句法分析,中文比英文差 8 个百分点左右。我觉得其中的一个核心原因就是中文天然缺少形态、时态的变化。

我们提出的「语义依存分析」方法「一步跨越了两步半」,它很像句法分析:句子分析结果也是依存树,但是词间关系已经不是主谓宾状定补等语法关系,而是施事、受事、工具,时间、地点等语义关系。通过一步到位的方法,我们现在能够得到的结果,在语义分析阶段和英文就比较接近了。我很看好这项研究未来的发展,在它做完之后,语义依存树的表示是可以直接帮助回答问题了。

在 SCIR 实验室中还有很多研究,覆盖了底层的句法、语义分析,应用层面的人机对话、情感分析、知识图谱等多方面的工作。

机器之心:您曾经说过,哈工大 SCIR 的研究工作并不面向纯理论,同时也不完全面向应用,如何在这样的指导思想下寻求突破性研究?

刘挺哈工大是一所典型的工科大学,我们一直致力于理论与实践的结合。SCIR 实验室致力于通过和工业界的合作去了解真实问题,同时结合领域内最先进的技术进展寻求新的突破。我们希望站在比企业再超前 3 到 5 年,甚至 5 到 10 年的位置上,通过原理的创新以及纯净的方法,把技术指标向前推进一步。

通过和企业的合作,我们发现了很多真实场景下非常有趣的问题。关注国际上深度学习机器学习等方向理论上的最前沿的突破;同时也关注国家的重大需求、企业的重大需求,然后把两者对接,在此基础上进行创新,这是我们主要的工作思路。

机器之心自然语言处理领域(NLP)与数据的结合非常紧密,这需要与科技公司,以及传统公司展开合作。哈工大是如何与工业界展开合作的?

刘挺自然语言处理和数据是紧密结合的,尤其是机器和用户互动产生的数据,但这些是高校等科研机构所缺乏的。其实某种意义上来讲,正是因为公司拥有大量数据、巨大的算力,才使得它们在某些方面处于领先地位,这意味着我们需要和企业进行合作。

和企业的合作除了数据的获取之外,还可以了解很多非常有价值的真实应用。我们和腾讯有着长达 12 年的深度合作,和科大讯飞也有 4 年的合作关系。我们还和很多公司开展了项目合作,如华为、阿里、小米、搜狗等。

NLP 的未来方向

机器之心:微软副总裁沈向洋博士说过「人工智能未来的突破在于自然语言理解」。在您看来,目前 NLP 领域中研究人员面临的最大挑战是什么?

刘挺十年前,自然语言处理在计算机学科中是有些边缘化的,因为它是一个交叉学科,介于工科和文科之间。但今天 NLP 已变成了大家关注的焦点——我们认为自然语言处理人工智能皇冠上的明珠,在这其中有技术发展阶段的原因。我们可以把人工智能分类为运算智能:比如下棋的人工智能感知智能:如人脸识别语音识别。而人脸识别的画面中,还有事物之间的关系,识别这些需要理解更深层次的概念,这些是认知层面的问题。感知智能发展到一定阶段的时候,大家就会很自然地把目光投射到认知智能,思考如何处理人类的抽象表达,这其中包括生活中的对话、企业内部的大量知识,它们是用文字表达的。

因此,自然语言处理正变得非常重要,同时自然语言处理还面临着文本领域迁移、文本推理等很多挑战。

刘挺教授等人提出的,目前自然语言处理领域所面临的挑战。

自然语言处理的问题,嵌入到了不同行业的各个问题当中。这就是为什么很多大型互联网公司的云计算的平台可能是由一个部门提供的,但是自然语言处理却是由很多部门都在做——因为无法为不同的行业提供通用的 NLP 技术。

我最近总结了自然语言处理由浅入深的四个层面:形式、语义、推理和语用,以及它们之间的关系,从上表中可以看到现在每个问题被人们研究的程度,最近的进展包括分布式语义表示的广泛采用(以 word embedding 为代表),以及知识图谱的作用。自然语言处理现在正处在从语义到推理的过渡阶段。

机器之心:听觉、视觉结合的多模态是否会是 NLP 未来很有前途的研究方向?哈工大 SCIR 是否已有这方面的研究了?

刘挺我们在多模态方面的研究刚刚开展,我们正在研究在文本生成方向上,根据图片和视频去生成文字。

随着技术的发展,SCIR 未来会跨界地进行一些领域融合的研究。我们认为不同的模态应该会有共同的指向,比如一段视频、新闻图片周围带有文字说明,或语音识别后的文本。我们应该试图通过这些内容去理解人物的情感,理解人物之间的关系。目前人们对于跨媒体的研究仍然不太够,一个原因是大家都觉得在自己的媒体上已经做得挺好,而且可做的事还很多,但我们要认识到:人学习的过程是一个多媒体环境,机器需要模拟人从多媒体环境中学习的过程。

对年轻学者的建议

机器之心:刘教授有哪些对年轻科研人员的建议?博士生应该如何开展 NLP 方面的研究?

刘挺现在,哈工大和国内顶尖高校的学生在 AI 顶会上能够发表很多论文,也获得了一些 Best Paper。但以我的观察,研究生们在选题立意方面还有提升的空间。年轻人有时候比较急,这也可以理解:为了博士毕业,必须发几篇文章。所以他们往往会选择一个当前比较流行的,但可能不一定那么有价值的问题,论文发出来就毕业了。他们毕业之后,下一个阶段能否沉下心来,做更具价值的研究呢?但是他又面临职称晋升。所以,我们现在的问题在于技术的跟踪能力非常强,会快速地达到世界一流的水平,但原创性、引领性还不够。我希望那些有志向的研究生在选题立意方面,要有更大的志向,选择更有价值更有挑战性的题目,不要太急,要有决心做出一点新东西来。

我们可以看看自然语言处理发展到今天,到底有什么东西是中国人提出来,被世界广泛应用的。我们有一些中文语言知识资源,比如《北大综合语言知识库》和《知网》,但是从算法层面,还缺乏很有影响力的突破性成果。国家提出到 2030 年我们要在国际上引领人工智能的发展,在未来十多年,我们的年轻人在老师的带领下,应该立更大的志向,而毕业这种特别紧迫的目标,需要适当的协调、平衡一下。

机器之心:随着 AI 的火热,人工智能顶会的论文数量也越来越多,但人们发现很多被接收的论文无法经受代码复现的推敲,您如何看待这样的现象?

刘挺一旦论文的导向过重的时候,竞争会很激烈——当你的论文发不出来,可能影响博士毕业,影响到评职称的时候,就会有人急功近利一些。其实科学本来是允许失败的,需要鼓励探索精神,但现状是如果你的指标无法超过 Baseline 或者 state-of-the-art,论文就不容易发表,于是大家就有可能会在一些细节上做一些工程化的东西,去提高技术指标。

但论文中往往略去工程细节,而且很可能那些细节就是针对这个数据是有效的,换到另外的数据集上就无效了。这种工作发表之后,大家如果去参考、复现又达不到效果,就是浪费精力。

我们需要以更科学、更严谨的态度来对待研究,应该追求真正的原理突破:深度学习刚刚火起来的时候,在 ImageNet 上取得的进步是非常显着的。

如果是通过各种调参、工程化和论证提高一点点水平,其实往往没有多少的原理上的进步。我们应该去追求更大的挑战。

但另一方面,对于年轻的研究者而言,并不是每个人都能推动原理上的巨大进步,几个百分点的进步也不很不容易。那么那些微小的改进到底有没有价值?

我的回答是有价值。在科学的大厦里,微小的改进就像一粒粒沙,聚沙成搭,别人读了这篇论文会得到一点启发,这也是有价值的。但如果有大量的工程的细节进去,好像把指标提高了,实际上并不具有可推广性,这个就没有太大的价值了,代码无法复现的就没有价值,应该摒弃这种做法。

机器之心:国内研究机构正活跃在各大机器学习会议上。就您而言,目前国内大学和北美的一些名校相比,还有哪些需要学习、借鉴的地方?

刘挺现在我们通过统计数字可以看到,以论文的数量来看,国内的论文有很多,我们排在非常靠前的位置。但论文的引用的数量还是不多,国际学术影响力还需要进一步提高。这是由两方面原因造成的。我觉得首先我们最大的差距还是原创精神不够,所以原创性的成果不够。

但是还有一个次要的因素,因为国外多年来在学术上的领先,所以即使中国人和美国人同时做出结果,外国人一般会倾向于引用美国人的。

我觉得国内做科研的机制导致学者们的短期压力过大:毕业的压力、评职称的压力,评上了教授之后还需要去竞争的一些头衔的压力。此外,拿各种项目的压力也比较大,各个学校的考评压力也是比较大的。

北美的教授看起来可以有更多的时间,按照自己的兴趣进行研究。我觉得我们从机制上还无法保证学者能够静下心来。所以我们在一些研究上还没有处于引领的地位。

另外,国内学术界和企业界的双向流动通道还不够畅通。像李飞飞从斯坦福离职加盟谷歌,再回到斯坦福,这在中国的企业和大学里是不容易出现的。在中国的一些互联网企业、AI 企业里也聘用了很多学者,但这些学者基本上都是来自海外高校。

国内学界与业界的通道是单向的,进入工业界后,你过了三年五载,你想再回去,高校未必有你合适的位置。这一方面从机制上也需要改进。

哈工大人工智能研究院

机器之心:最近国内外很多大学纷纷成立人工智能学院,哈工大也在今年 5 月成立了人工智能研究院,这一机构目前有哪些正在进行的任务?

刘挺人工智能领域,现在有的学校成立学院,有的学校成立研究院。为了适应国家发展的潮流,除了科研以外,这些机构还要培养人才,我觉得这非常重要。哈工大搞人工智能的团队很多,有一个第三方的统计显示:哈工大培养的人工智能人才是中国最多的。

为了顺应国家新一代人工智能发展规划,哈工大的人工智能研究院在今年 5 月成立。人工智能研究院的工作分为四个层次、七个方向。

  • 第一个层次是基础理论,包括机器学习、脑科学。

  • 第二层是核心技术,最主要的就是自然语言处理技术,和机器感知模式识别

  • 第三层是系统层面。哈工大在机器人领域实力特别强,有国家重点实验室,在这方面我们呼应新一代人工智能规划,设置了混合增强智能、自主智能这两方面。

  • 最后是第四层应用,有关智能金融、智能制造等方面。

我们希望哈工大人工智能研究院能在一段时间之后取得令人骄傲的成绩。

机器之心:哈工大未来也会像其他一些学校那样,招收一些人工智能专业的学生吗?

刘挺哈工大已经由计算机学院向教育部提交了申请人工智能本科专业的申请。我国人工智能的人才培养现在其实有两个番号,一个叫智能科学与技术(如北大),有几十所大学是用这个番号的。

也有不少名校想叫人工智能这个名字,这个又申报了一批,这两个名称在未来或许会同时存在。包括哈工大的各家高校,从明年起很可能就会开始本科的人工智能专业招生,相关专业应该很快就会获批。

在中国,本科叫专业,硕士博士阶段叫学科。现在国家已经在计算机方面有计算机科学与技术、软件工程和网络空间安全三个一级学科了。我们还希望能够尽快推动人工智能一级学科的建立。

现在,哈工大在硕士招生时已开始了调整。我们专门设置了一个人工智能方向的培养方案,以供今年 9 月份新入学计算机学科的同学们自行选择。将来在他们毕业的时候,校方会证明他们是人工智能方向培养的学生。他们的培养的方案体系和一般的计算机的或者软件工程会有所差别。目前,这个方向的报名非常踊跃。 

产业专访自然语言处理NLP哈工大刘挺
3
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

http://www.iflytek.com/
沈向洋人物

微软全球执行副总裁,美国工程院院士。

李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

推荐文章
暂无评论
暂无评论~