ACL 2020放榜了,腾讯27篇论文入选

近日,国际计算语言学协会年会(ACL,The Association for Computational Linguistics)在官网公布了ACL 2020的论文收录名单,共计收录779篇论文。据不完全统计,此次腾讯共有27篇论文入选,投中论文总数刷新国内记录,领跑国内业界AI研究第一梯队。

本年度腾讯ACL入选论文中,有20篇来自腾讯AI Lab团队,7篇来自微信AI团队,研究方向涵盖对话及文本生成机器翻译及文本理解、信息抽取、无监督文本等多个NLP重点领域。

在过去一年,通过开源协同,腾讯梳理拉通了各个事业群最底层和共性的技术能力,加强了基础研发投入,进一步提升了研发效能和技术资源的利用效率,为AI技术的研发创新提供了更有生命力的土壤。

ACL是自然语言处理领域的国际顶级学术会议,也是自然语言处理领域影响力最大、最具活力的国际学术组织之一,论文被录用代表着研究成果获得了国际学术界的认可。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间,据最新公布数据显示,本届大会最终收到投稿论文3088篇,投稿数量创下新高。

技术实力强劲,AI基础研究优势突出

近年来,腾讯在AI基础研究方面持续投入,致力于打造面向未来的技术引擎。腾讯AI团队在ACL 2019入选国内首篇最佳长论文,在ICML、CVPR、NeurIPS、ACL等多个顶级学术会议或期刊累计入选论文超过285篇,并在DSTC 8等多项竞赛夺冠,展现了业界领先的研究能力与技术实力。

自然语言处理腾讯 AI Lab 的重要研究方向之一,研究内容囊括了从自然语言理解到生成的整个链条。2019年,腾讯AI Lab在人机对话与文本生成方面,提出多种对话生成新框架,发布了多个对话数据集,同时还改进了开放域对话系统。在机器翻译研究方面,腾讯AI Lab探索了主流翻译模型中的自注意力模型改进和篇章翻译,并尝试打开神经网络翻译模型的黑盒子,解释其中核心问题的运行机制。

微信AI团队也长期深耕对自然语言处理领域人工智能技术的研发,拥有微信智言与微信智聆等领先的NLP技术产品,其入选ACL 2020 的7篇论文,涉及了机器翻译对话系统信息抽取、无监督文本生成等领域。2019年,微信AI团队凭借NumNet+模型,超越谷歌获得DROP阅读理解榜单第一名。

应用场景丰富,面向行业开放技术能力

顶尖的产品背后离不开顶尖的技术。腾讯丰富的业务场景、庞大的用户基数,都为前沿的AI研究成果提供了最佳的“训练场”。在此基础上,腾讯也将充分打磨的技术能力通过腾讯云以产品和服务的形式面向金融、政务、医疗、交通、教育等各行业开放,为众多客户和合作伙伴提供底层技术支撑,助力产业互联网进入快车道。

目前,微信 AI 团队推出了“微信智聆”和“微信智言”两大技术能力品牌,分别关注语音和语义。微信智聆每天处理超过 4 亿条语音,识别准确率为 97%,服务于腾讯内外超过 100 项业务。微信智言专注于智能对话和自然语言处理,目前已经支持家居硬件、PaaS、行业云和AI Bot等应用领域。

微信AI团队还将技术的精进不断用于产品功能,研发了语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能,并为王者荣耀、QQ 音乐等产品提供技术支持。

在2020年初的微信公开课PRO版上,微信AI宣布开放以硬件合作为核心的腾讯小微硬件开放平台、以对话开放能力为核心的微信对话开放平台和NLP基础技术平台,全面开放各层次 NLP 能力,面向行业用户及开发者,开放微信前沿的NLP研究成果。

腾讯 AI Lab则在2018年11月推出了TranSmart产品,采用业内领先的人机交互机器翻译技术,帮助用户更好更快地完成翻译任务。

今年4月,腾讯AI Lab研发的自然语言理解系统TexSmart也对外开放,提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。TexSmart是腾讯公司级文本处理工具的功能加强版,为自然语言处理相关的腾讯业务及产品提供广泛支持,日调用量达数千亿次。

除了产品和技术能力的开放,腾讯还致力于通过开源与开发者共享代码,目前开源项目总数已破百。

仅在AI领域,腾讯已开源Angel、NCNN等数十个优质项目。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯AI Lab开源了大规模、高质量的中文词向量数据,包含了800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上均有大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

产业论文腾讯ACL 2020
相关数据
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

联想机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

推荐文章
暂无评论
暂无评论~