Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

多次参加数学竞赛、恶补计算机知识进入实验室,这位清华学子最终拿下世界顶级计算机学术奖项

只要相信自己,你就会知道如何生活。——《浮士德》

高信龙一,他是一位清华大学计算机系的研究生,在 SIGDIAL 2020 会议上,作为清华 COAI 小组的一员,帮助自己的队伍拿到了 SIGDIAL2020 最佳论文。SIGDIAL 是由 ISCA(International Speech Communication Association,国际语言交流协会)和 ACL(Association for Computational Linguistics,计算机语言协会)共同举办的世界级顶级学术会议。

高信龙一的论文 Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation,这是一篇关于提高完整对话系统评价的论文。

现如今,越来越多的学者加入到了对话系统的研究与开发工作之中,这使得对话系统在单轮评测中有着极为优秀的表现。然而对话系统是多轮交互的,单轮结果一旦出错,比如偏离用户本意,那么在这之后的对话系统都将跟着一起出错。这也是为什么对话系统需要一个妥善的评价系统。

通过高信龙一的验证,他得出了三条结论

(1)使用不同组件级别的细粒度监控信号训练的 pipeline 对话系统通常比使用粗粒度标签训练的联合或端到端模型的系统获得更好的性能。

这是由于对话系统的细粒度监控给整个系统决策带来的提升,促使系统能够更好的预测用户意图,并在对话期间采取相应的措施。建议良好的语用分析时,这种对系统整体决策的帮助是必不可少的。

(2)单轮、模块内的评估结果并不总是与多轮、系统级的整体性能一致。

为了准确评估每个模块的有效性,应该从实际角度出发,采用系统化的多轮评估。论文指出,应将特定模块的建议模型组装成一个完整的系统,并通过标准化对话平台与模拟或人工用户一起评估系统。

(3)尽管模拟用户和真实用户之间存在差异,但模拟评估仍然是昂贵的人工评估的有效替代,特别是在开发的早期阶段。

模拟评估可以很好地评估面向目标的对话系统,并显示出与人类评估的适度相关性,但它明显高估了系统在人类交互中的性能。因此,需要设计更好的用户模拟器,使其更接近人类。

模拟器应该能够产生自然和多样的反应,同时能够在复杂的对话中改变目标,等等。模拟器本身可能会出错,从而导致对性能的错误估计。然而,即使有人工评估,对话系统也需要处理更复杂和不确定的情况。而且模拟器和人类用户之间也存在差异,其相关度约为 50% 到 60%。可模拟评估仍然是昂贵的人类评估的有效替代方案。

高信龙一参加 AAAI 2019起初,高信龙一讲这篇论文投稿到了 ACL 的短论文上,不过在随后的一段日子里,他又将其撤稿。直至通过老师和实验室成员的帮助进行修改,最终我们才能够在 SIGDIAL 2020 上看到这篇对现代对话系统诟病一针见血的最佳论文。

这篇论文一共 60 余篇的引用,更重要的是,除了一些重要的现代学术发现,高信龙一还引用了 2000 年以前的计算机丰碑式论文,如荒木正浩发表于 1996 年的论文《Automatic evaluation environment for spoken dialogue systems.》。

高信龙一告诉学术头条,这些论文在飞速发展的计算机技术面前已经算是古董,但是其中提到的思路仍然对算法开发有着重要的帮助。

既然提到了对话系统,就不得不引入高信龙一与微软合作的实验论文《ConvLab: Multi-Domain End-to-End Dialog System Platform》。论文中描述了一个多领域端到端的对话系统,其命名为 ConvLab。它一方面提供一些可复用的组件来帮助实验人员快速实验,另一方面还可基于它在通用环境中对比大量不同方法。另外,ConvLab 还提供了一些完全标注的数据集和一些相关的预训练模型。

ConvLab 允许研究人员自动训练对话模型、创建和评估任务型对话机器人。这样的开源系统在许多人工智能相关的研究取得突破的过程中起到了重要作用,比如 Moses、HTK 和 CoreNLP 等都分别被广泛用于机器翻译语音识别自然语言处理

由于以往研究中使用的方法和评价指标都不同,在相同条件下进行严格的对比是不可行的。这就使得 ConvLab 成为了第一个对话研究平台,涵盖了一系列可训练的统计模型和全注释数据集,不同于以前的工具箱,ConvLab 的重点主要集中在组建各种框架及搭配的系统上。

可以看出,即便是不同领域的研究,但是在研究内容上仍然保持着强相关性。只有开始探索的那一刹那,才能发现到底还有哪里不足。高信龙一在研究中发现了目前没有完整的评价手段,于是着手去开发开源的对话系统平台,一步一步地开垦新的田野。

高信龙一参加 EMNLP2019进入清华之前,高信龙一和计算机的关系并不大,他是一位多次参加数学竞赛的学生,同样也在该领域取得了很好的成绩。然而随着学历的增加,面临他的便是选择属于自己的专业。

高信龙一选择了清华大学的计算机系,他告诉学术头条,虽然投入了大量的时间用于钻研数学,然而他清楚自己的能力界限,再加上对计算机有着独特的兴趣爱好,于是选择进入了计算机系。

在大一时期,高信龙一没有直接进入计算机实验室,而是报名了像是足球社、留学生交流社这样的社团。但是他心里明白,相较于他的同学们,他自己没有在计算机领域的先天优势。只能通过私下阅读论文的方式来进行恶补。一年之后,随着自身利用课外时间的积累,他发现自己已经具备了着手于研究和探索的信心,这让他产生了加入清华大学计算机系实验室的想法。

清华大学计算机系的实验室有很多,有热门的,也有冷门的。看着同学们相继报名了较为热门的实验室,高信龙一没有怀揣着多么复杂的想法,找到了一个感兴趣且又没那么多人的实验室——清华大学计算机系黄民烈教授团队的交互式人工智能实验室。他用一种自嘲的口吻说,“当时交互实验室人少,更有机会得到锻炼,我就去了。”

当然,即便是私下阅读了大量的论文,高信龙一也对计算机基础深有自知。他选择跟随学姐,做一些 baseline 层面的实现与分析工作,即使相对后面的研究来说这种工作还处于初级阶段,不过对于高信龙一,这些工作所积累的知识是十分宝贵的。

高信龙一在实验室中主要负责的领域是对话系统推荐系统和强化系统。人机交互的过程中,预言交互是一种重要的交互方式。这种交互方式会让用户产生自己是在跟真人进行交流的错觉,不过想要达到该程度,需要对话系统更加可靠。

除了对话系统,高信龙一在其他领域依然有所建树。他曾在 WWW 2019 上发表了论文Aggregating E-commerce Search Results from Heterogeneous Sources via Hierarchical Reinforcement Learning。这是一篇对电商搜索结果进行聚合的算法研究,利用子任务排序的方法先呈现所有源的聚合,再从用户的反馈中进行学习,从而提高搜索性能。

清华是个养人的地方,高信龙一是一个直到上了大学才开始了解计算机的人,却在本科和研究生时期实现了远超同龄人的成就。伴随大环境浓厚的学术气息,再加上自身的勤奋和努力,以及在研究领域的钻研,促成了高信龙一的今天。

事实上,SIGDIAL 的获奖也只是个阶段目标,换句话说,奖项本身是对获奖者努力的肯定,而非最终目的。它是一种鼓励,支撑科研工作者步步为营地探索未知。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业清华大学SIGDIAL 2020高信龙一
1
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

黄民烈人物

黄民烈,清华大学计算机科学与技术系副研究员。人工智能、深度学习、机器学习方法与应用;自然语言处理,自动问答,人机对话系统,情感分析,社交数据挖掘。

推荐文章
暂无评论
暂无评论~