追一科技获得CoQA阅读理解冠军,AI单模型首次超越人类

AI又一次挑战人类取得新突破,这次是多轮对话阅读理解。

近日,由斯坦福大学发起的对话式问答挑战赛 CoQA (Conversational Question Answering Challenge)中,追一科技 AI Lab团队超越微软团队成为榜单第一,刷新了之前微软等团队创造的CoQA纪录。值得注意的是,团队提交的技术方案中,单模型的各项指标表现首次全面超越人类。(比赛地址:https://stanfordnlp.github.io/coqa/)

阅读理解是目前语言AI最受关注、进步最快的技术方向,全球有两大顶级比赛最受瞩目,分别是注重一问一答的SQuAD和多轮对话问答的CoQA。相比SQuAD,CoQA比赛重点挑战的是模型在对话过程中回答相互关联问题的能力,而且对话问答数据集由来自不同领域一系列文章中的对话问题组成,答案的形式非常自由,这些改进点都极大地提高了挑战赛的难度。

在此之前,包括微软科大讯飞搜狗等知名企业和院校,都曾经登顶榜单,其中微软在组合模型上,一度成为最佳记录保持者,引起业内瞩目。

追一科技团队在大规模预训练模型RoBERTa的基础上,融入了对抗训练(Adversarial training)和知识蒸馏(Knowledge Distillation)的思想,同时兼顾了CoQA数据集的自身特点,实验结果表明,上述方法显著地提升了系统表现。目前,团队在2019年9月5日提交的RoBERTa + AT + KD系统,在CoQA榜位列第一,其中单模型(single model)的表现首次全面超越人工评测指标。 

此次登顶CoQA,也是追一科技持续耕耘AI技术的成果之一。作为以技术创新为核心驱动力的AI公司,追一科技一直专注在前沿AI语义交互与算法技术的攻坚,在意图识别、情感分析、知识图谱、阅读理解、多轮对话等领域不断取得突破。并获得了2018 CMRC机器阅读理解比赛冠军、2019年CCF语言与智能技术竞赛的“知识驱动对话”冠军。

除了技术突破,追一科技一直坚持研发与应用互相驱动,规模化落地AI应用。追一科技的智能产品和解决方案,已经在金融、运营商、政企、泛互联网等众多领域落地,服务300多家行业标杆客户。与此同时,追一科技还致力于创新型技术的应用落地、量产及标准化,例如,阅读理解、多模态交互数字人等技术和产品,已经在部分券商、银行伙伴场景中应用,实现业内突破。

随着NLP等AI技术的突破,产业智能化时代的到来,多行业场景化需求将对技术创新和产品化能力提出更多挑战。追一科技将继续专注创新能力,攻坚技术前沿,以技术创新赋能更多行业伙伴!

产业阅读理解追一科技
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

http://www.iflytek.com/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

追一科技机构

追一科技成立于2016年,是国内领先的企业智能服务AI解决方案提供商,专注于深度学习和自然语言处理,以业界领先的AI技术、产品与服务,为企业提供深度的人企交互智能化解决方案,帮助企业降低人员成本、提升服务效率、优化企业运营,共创“更美好AI世界”。公司已经服务于金融、互联网、零售电商、地产等10+行业,积累了招商银行信用卡、南方基金、长江证券、阳光保险、恒大人寿等200+客户。两年间,追一科技从初期5名创始人到现在超过300位顶尖小伙伴,获得了来自顶级投资机构的天使、A、B轮融资逾2亿人民币。未来,追一科技在巩固金融、互联网和零售、生活服务等领域占有优势同时,积极拓展新兴市场领域,实现更多行业、更多场景的AI落地应用,进一步驱动研发创新和公司快速成长。 同时,与行业领军、头部客户深度战略合作,融合丰富的场景、数据与AI技术,实现深层次的AI解决方案应用,并努力实现更具普适性、拓展性的行业级AI能力。

Zhuiyi.ai
推荐文章
暂无评论
暂无评论~