第三届语言与智能高峰论坛在京召开,从深度学习NLP到认知科学探讨前沿研究与应用

2018年7 月 28 日,第三届语言与智能高峰论坛(The 3rd Language & Intelligence Summit)在北京语言大学礼堂隆重召开。论坛由中国中文信息学会和中国计算机学会共同发起并联合主办,北京语言大学承办,旨在向社会公众介绍国际自然语言理解及认知智能方向的发展趋势和创新成果,推动我国相关领域的前沿学术研究和产业技术创新的发展。本次论坛以“语言、认知与智能”为主题,吸引了来自全国学术界、产业界从事语言与智能相关研究的同行600余人参加,共同探讨语言与智能领域的新发展和新技术。

中国中文信息学会理事长方滨兴院士和中国计算机学会理事长高文院士分别为大会致欢迎辞。

论坛邀请了中国工程院院士方滨兴,伊利诺伊大学香槟分校(UIUC)知名学者翟成祥教授,国际计算语言学协会(ACL)执行委员会委员、华盛顿大学副教授、Facebook公司研究科学家Luke Zettlemoyer,北京大学心理与认知科学学院教授、浙江师范大学心理与脑科学研究院院长周晓林等四位来自学术界和产业界资深专家作了特邀报告。特邀讲者就大数据时代人工智能的安全、当前自然语言处理技术研究的最新进展、以及会话含义理解的神经科学基础等重要方向进行了深入剖析,并对未来发展方向和挑战性问题进行了高瞻远瞩的探讨。

与会特邀讲者和嘉宾合影

方滨兴院士作题为《人工智能安全之我见》的报告,他提到,未来任何人工智能系统,只要是一个具有破坏力、可运动的智能行为体,就存在安全问题。报告从两个角度介绍了人工智能的安全:一方面是人工智能应用于安全领域;另一方面是人工智能自身带来的安全问题。最后,报告还给出了人工智能对人产生威胁的三要素,以及对未来人工智能安全问题的深入思考和防范策略。

方滨兴院士作题为《人工智能安全之我见》的报告

周晓林教授的报告题目是《会话含义理解的神经科学基础》。他向与会听众介绍了会话含义(conversational implicature)的概念,它是指一种受制于语境、有关说话人交际意图的隐含信息,即某一话语在特定语境中所隐含的言下之意或弦外之音。根据会话含意与语境之间的关系,可分为一般会话含义(generalized implicature)和特殊会话含义(particularized implicature)。一般含义往往表征在特定的形式结构中,其涉及的语用推理相对独立于语境;特殊会话含义则没有固定的语言形式,更多地依赖语境信息和世界知识。接下来周晓林教授介绍了他的团队近年来对汉语理解中两种会话含义语用加工的认知神经机制的深入研究成果,并介绍了认知神经科学实验研究的基本方法和思考。这为更深入理解语言和智能信息问题提供了新的交叉学科思路。


周晓林教授作题为《会话含义理解的神经科学基础》的报告

Luke Zettlemoyer 教授作题为End-to-end Learning for Broad Coverage Semantics的报告,首先介绍了端对端深度学习在传统的自然语言处理挑战性问题上的研究成果,例如语义角色标注、指代消解等计算语义学任务。接下来介绍了他的团队所提出的一种新的不需要分词和句法分析等预处理的统一神经网络框架,该框架可以在上述两个任务上能够取得25-40%的相对错误率的显著降低。此外,Luke教授还介绍了通过众包标注获得更大规模的数据来进行半监督学习的工作。这些工作都引起了观众的广泛兴趣。

Luke Zettlemoyer 教授作题为《End-to-end Learning for Broad Coverage Semantics》的报告

翟成祥教授的报告题目是TextScope: Enhance Human Perception via Intelligent Text Retrieval and Mining,他首先讨论了辅助式人工智能和自动化人工智能的区别以及他们对人类工作的意义,强调了在大数据环境下复杂任务中,智能化的信息处理将可能为人们带来极大的帮助。更进一步地,翟教授从文本透镜(TextScope)这一顶层设计的角度,探讨了对文本进行深入和全方位分析的可能性极其可能带来的意义。这是一个交互工具,方便用户借助该工具在以任务为基础的统一框架下进行智能信息检索和文本分析。如同显微镜可以让我们观察到细微世界,望远镜可以让我们遥望天空一样,文本透镜应该是一种可以让我们发现在大规模文本数据背后所隐藏的未知知识。翟教授还以评论分析等具体任务为例,对该思路的实际研究进展进行了介绍。最后,他还谈到了研究这样一个文本透镜所面临的挑战性问题,提出这应该是一个把文本和非文本数据结合起来的基于上下文情景信息的自然语言处理过程。他的这一观点为在场听众们带来了很大的启发。

翟成祥教授作题为《TextScope: Enhance Human Perception via Intelligent Text Retrieval and Mining》的报告

本次高峰论坛特设立“青年科学家与企业论坛”,邀请了清华大学计算机系长聘副教授朱军、清华大学医学院研究员洪波、复旦大学计算机学院副教授邱锡鹏、北京大学信息学院研究员孙栩、搜狗公司副总裁许静芳分别进行了主题报告。

朱军副教授在《贝叶斯深度学习:模型、算法及编程库》报告中,介绍了贝叶斯深度学习的前沿进展,特别是深度生成模型(VAE, GAN等),介绍支持贝叶斯深度学习的珠算概率编程库,以及在小样本学习、半监督学习等方面的应用。

朱军副教授作题为《贝叶斯深度学习:模型、算法及编程库》的报告

洪波研究员《人脑中的语音与语言处理》则为与会者开启了另一扇窗,他在报告中介绍了他们与神经外科医生合作的工作,包括他们发表在美国科学院院刊PNAS 2017上的工作。他们借助临床神经电生理监护的机会,记录来自人的大脑皮层表面的电活动(颅内脑电iEEG),结合磁共振成像提供的空间信息,分析听觉和言语脑网络的动态编码特性。这些独特的人脑数据将最终揭示声音和言语信息处理的神经机制,同时帮助人们设计和开发更加稳健的智能语言处理系统提供新的思路。

洪波研究员作题为《人脑中的语音与语言处理》的报告


邱锡鹏副教授自然语言处理中的多任务学习讲述了在自然语言处理中的多任务学习方法,主要包括不同的共享模式(硬共享、软共享和并行共享)和具体的多任务学习模型,以及如何从多领域、多层次、多语言、多模态等角度来设计多任务的学习方式,最后还对深度多任务学习这一发展方向进行了展望。

邱锡鹏副教授作题为《自然语言处理中的多任务学习》的报告

孙栩研究员的报告自然语言生成关键技术研究》首先介绍了深度学习自然语言生成中的应用,然后探讨前述问题的最新解决方案,并介绍他们在该方向的近期研究进展,主要包括:多样化评论生成、文本情绪转换以及语义一致性改进。

孙栩研究员作题为《自然语言生成关键技术研究》的报告

许静芳博士的企业论坛特邀报告《从深度匹配到深度问答》则讨论了大规模全网通用搜索引擎在从搜索走向问答的过程中所面临的挑战,以及搜狗搜索在深度匹配、深度问答上所做的一些尝试与进展。同时也将以搜狗汪仔在中文知识问答竞赛中挑战人类为例,探讨人与机器的差异及语言智能的未来。

许静芳博士作企业论坛特邀报告《从深度匹配到深度问答》

这几位自青年新锐和企业前沿的报告内容展示了最新研究成果,报告内容充实,被听众们评价为“干货满满”,具有学习和借鉴价值。

高峰论坛的另一个特色精彩环节是“学术界与企业界圆桌对话”。七位重量级嘉宾参加了圆桌讨论,他们中有四位来自学术界:清华大学计算机系教授、天工智能研究院常务副院长,中国中文信息学会副理事长、中国人工智能学会副理事长马少平,中国科学院软件所研究员、中国中文信息学会副理事长兼秘书长孙乐,哈尔滨工业大学教授、哈工大人工智能研究院副院长刘挺,中国科学院自动化研究所副研究员、中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新一等奖”获得者刘康;三位来自企业界:IBM中国研究院的研究总监、大数据及认知计算研究方向首席科学家苏中博士,搜狗副总裁、搜狗搜索事业部负责人许静芳博士,思必驰北京研发院自然语言处理负责人葛付江。圆桌论坛由清华大学长聘副教授张敏主持,她的精彩提问与串场充分调动了全场听众与嘉宾的气氛,受到一致好评。

圆桌论坛上,嘉宾们在多个“尖锐”的问题上发表了精彩见解,先后讨论了“有人说企业界与学术界的方法是简单粗暴有效与复杂好看不实用的对比,这一观点是否是成见,是否发生了变化,理想的模式是什么?”;“深度学习是不是已经统治了学术界和企业界,成为现在以及未来的主要的方法,传统方法是否还有用武之地”;“自然语言处理及相关研究到底有没有门槛?现在有了深度学习之后,很多其他领域的研究者或从业者更容易切入进来了,似乎门槛变得更低了,这是好事还是坏事?自然语言处理研究者们的优势在哪里?”等问题。

此外,针对现场观众提问,嘉宾们也表达了“现在正是自然语言处理相关方向学生毕业找工作最好的时期”、“在学校学到的是方法和能力,是猎枪而不是面包”等观点,并探讨了“我国现在在自然语言处理研究方面与国际相比还有哪些差距”等问题。在圆桌论坛中,嘉宾们妙语连珠、精彩纷呈,听众们听得“过瘾”,现场不时响起热烈的掌声和阵阵笑声。

学术界与企业界圆桌对话

最后,论坛还举行了“机器阅读理解评测”论坛暨颁奖仪式。百度公司高级科学家吕雅娟介绍了“2018机器阅读理解技术竞赛”的总体情况。一等奖获得者Naturali (北京奇点机智科技有限公司、二等奖代表NEUKG-NReader(东北大学)、三等奖代表Delta Text Analysis(台達電子-台達研究院)分别作了代表性系统报告,清华大学马少平教授、百度公司吴华博士、北京大学赵东岩研究员分别为一二三等奖获奖单位颁奖。除到场作系统报告的团队外,二等奖获得团队还有ZWYC(北京大学Dlib研究组),获得三等奖的团队还有Iioiio(上海理工大学)以及iDeepWise (深思考人工智能机器人科技(北京)有限公司)。

一等奖Naturali (北京奇点机智科技有限公司)

二等奖ZWYC(北京大学Dlib研究组)、NEUKG-NReader(东北大学)

三等奖Iioiio(上海理工大学)、Delta Text Analysis(台達電子-台達研究院)、iDeepWise(深思考人工智能机器人科技(北京)有限公司)


本次峰会论坛得到了搜狗公司、百度公司和微软亚洲研究院的赞助和大力支持。

产业NLP深度学习认知科学
2
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

自然语言生成技术
Natural language generation

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

信息检索技术
Information Retrieval

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

神经科学技术
neuroscience

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

半监督学习技术
Semi-Supervised Learning

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

语义学技术
Semantics

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

多任务学习技术
Multi-task learning

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

返回顶部