追一科技获得CoQA阅读理解冠军,AI单模型首次超越人类

AI又一次挑战人类取得新突破,这次是多轮对话阅读理解。

近日,由斯坦福大学发起的对话式问答挑战赛 CoQA (Conversational Question Answering Challenge)中,追一科技 AI Lab团队超越微软团队成为榜单第一,刷新了之前微软等团队创造的CoQA纪录。值得注意的是,团队提交的技术方案中,单模型的各项指标表现首次全面超越人类。(比赛地址:https://stanfordnlp.github.io/coqa/)

阅读理解是目前语言AI最受关注、进步最快的技术方向,全球有两大顶级比赛最受瞩目,分别是注重一问一答的SQuAD和多轮对话问答的CoQA。相比SQuAD,CoQA比赛重点挑战的是模型在对话过程中回答相互关联问题的能力,而且对话问答数据集由来自不同领域一系列文章中的对话问题组成,答案的形式非常自由,这些改进点都极大地提高了挑战赛的难度。

在此之前,包括微软科大讯飞搜狗等知名企业和院校,都曾经登顶榜单,其中微软在组合模型上,一度成为最佳记录保持者,引起业内瞩目。

追一科技团队在大规模预训练模型RoBERTa的基础上,融入了对抗训练(Adversarial training)和知识蒸馏(Knowledge Distillation)的思想,同时兼顾了CoQA数据集的自身特点,实验结果表明,上述方法显著地提升了系统表现。目前,团队在2019年9月5日提交的RoBERTa + AT + KD系统,在CoQA榜位列第一,其中单模型(single model)的表现首次全面超越人工评测指标。 

此次登顶CoQA,也是追一科技持续耕耘AI技术的成果之一。作为以技术创新为核心驱动力的AI公司,追一科技一直专注在前沿AI语义交互与算法技术的攻坚,在意图识别、情感分析、知识图谱、阅读理解、多轮对话等领域不断取得突破。并获得了2018 CMRC机器阅读理解比赛冠军、2019年CCF语言与智能技术竞赛的“知识驱动对话”冠军。

除了技术突破,追一科技一直坚持研发与应用互相驱动,规模化落地AI应用。追一科技的智能产品和解决方案,已经在金融、运营商、政企、泛互联网等众多领域落地,服务300多家行业标杆客户。与此同时,追一科技还致力于创新型技术的应用落地、量产及标准化,例如,阅读理解、多模态交互数字人等技术和产品,已经在部分券商、银行伙伴场景中应用,实现业内突破。

随着NLP等AI技术的突破,产业智能化时代的到来,多行业场景化需求将对技术创新和产品化能力提出更多挑战。追一科技将继续专注创新能力,攻坚技术前沿,以技术创新赋能更多行业伙伴!

产业阅读理解追一科技
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。 搜狗在产品上追求技术创新,紧跟时代步伐,强调战略布局。经过长期摸索和反复尝试,目前形成了以搜索引擎、输入法和浏览器为主,以通话管理、地图、智能硬件等产品为辅的产品布局。

http://corp.sogou.com/
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市(股票代码:002230)。

http://www.iflytek.com
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

追一科技机构

追一科技是领先的人工智能公司和AI数字员工提供商,我们主攻深度学习和自然语言处理,提供智能语义,语音和视觉的AI全栈服务。我们的AI数字员工智能平台能与业务场景深度融合,提供不同类型的AI数字员工,满足企业和政府用户服务、营销、运营、办公等多种场景的智能化升级需求,帮助他们降本提效,改善用户体验,驱动创新和增长。

http://zhuiyi.ai
推荐文章
暂无评论
暂无评论~