2019 CCKS聚焦知识智能,苏州大学、中科院斩获中英最佳论文

8月24日至27日,由中国中文信息学会语言与知识计算专业委员会主办,浙江大学承办的2019年全国知识图谱和语义计算大会(CCKS:China Conference on Knowledge Graph and Semantic Computing)在杭州召开。本届大会以“知识智能”为主题,吸引了近千名国内外高校、研究院以及企业相关领域的学者和研究人员参会,围绕知识图谱、语义计算和语言理解的关键技术和应用等话题展开了深入探讨。

CCKS是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议:中文知识图谱研讨会The Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。

全国知识图谱与语义计算大会致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议,聚集了众多知识表示、自然语言理解、智能问答、知识抽取、图数据库等相关技术领域的学者和研究人员,力求为我国语言与知识计算领域的学术研究和产业发展,为从事相关理论和应用研究的学者、机构和企业提供广泛交流的平台。

大咖云集 共论未来发展

CCKS2019分为讲习班和主会两个部分。在8月24-25日举办的《前沿技术讲习班》——知识图谱专题(CIPS ATT16)论坛中,六名中外知名青年学者与企业代表带来了精彩的学术前沿和应用技术报告。加州大学圣巴巴拉分校教授严锡峰,南加州大学助理教授任翔,密歇根州立大学助理教授Jiliang Tang ,新泽西州立大学助理教授张永峰,以及腾讯微信模式识别中心高级研究员林衍凯,深度好奇创始人吕正东,分别以“自然语言界面、知识图谱构建和推理、图深度学习、知识指导的自然语言理解、可解释推荐和阅读理解”等为主题作了分享。

在8月26日召开的CCKS2019开幕式上,中文信息学会理事长方滨兴院士为大会开幕式致辞,清华大学李涓子教授代表语言与知识计算专委会致辞,CCKS2019大会主席清华大学朱小燕教授、程序委员会主席哈尔滨工业大学秦兵教授分别为大会致辞并介绍大会情况,本次大会承办方主席、浙江大学陈华钧教授主持了开幕式。

在特邀报告环节,英国南安普顿大学计算机科学教授Wendy Hall作了题为《Web Science, AI and Future of the Internet》的报告,她从人工智能发展带来的潜在威胁入手,指出必须采用社会技术方法分析互联网的发展,以确保未来的互联网能够帮助人们创造一个理想生活的世界。伊利诺伊大学香槟分校Heng Ji 教授带来了题为《PaperRobot: Scientific Knowledge Graph Construction and Paper Writing》的报告,分享了她们在利用知识图谱进行论文阅读理解、发现新研究思路以及自动构写论文摘要等方面的研究成果。加拿大滑铁卢大学李明教授以《第三代聊天机器人》为题作了精彩分享,他介绍了现有聊天机器人存在的不足,提出第三代聊天机器人架构和可行的实现方法。百度首席技术官王海峰博士作了《知识图谱与语义理解》的报告,介绍了百度知识图谱与语义理解技术及应用方面的工作,并对其未来发展方向做了进一步探讨。

最佳中英论文出炉

本届大会收录论文53篇,其中Oral论文13篇,Poster论文40篇。《基于简介文本的中文人物关系图谱属性补全与纠错》获得了本次大会的中文最佳论文,作者是苏州大学计算机科学与技术学院的杨一帆、马进、 王海涛、 何正球、陈文亮、张民。

该文描述了从百科类数据构建人物关系图谱的过程,作者对人物属性和关系进行了归一化处理,为提高图谱的覆盖率和正确率,从文本中进行自动学习知识的纠错和补全,最终获得了包含百万级人物实体和千万级三元组的人物关系图谱。该文采用模式匹配统计模型相结合的策略从文档数据中自动学习补全和纠错属性,最终提高了知识图谱的正确率和覆盖率。

《Copy-Enhanced Contextual Information Learning for Dialogue State Tracking》获得了本次大会的英文最佳论文奖,作者是 Qingbin Liu、 Shizhu He、 Kang Liu、 Shengping Liu 、Jun Zhao,来自中国科学院自动化研究所模式识别国家实验室和北京云知声信息技术有限公司。

该文提出了一个复制增强的异构信息学习模型,该模型具有多个编码解码器用于DST(CEDST),通过复制异构文本中的值,可以有效地生成所有可能的值,包括未知值。同时,CEDST可以通过多个编码器将大状态空间有效地分解为多个小状态空间,并利用多个解码器充分利用减少的空间生成值。多编码器-解码器体系结构可以显著提高性能。实验表明,CEDST可以有效地减少空间生成值,同时CEDST在WoZ2、bAbI和他们构建的数据集上都实现了最优性能。

知识图谱评测竞赛奖项花落各家

CCKS每年都会面向公众发布评测任务,这一系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。

经过前期的评测任务征集和评测组委会筛选,CCKS 2019共设立6个相关主题评测任务,分别是:面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取、公众公司公告信息抽取以及开放领域的中文问答。专委会为每个任务前三名设立了奖金并颁发证书,同时组委会针对不同任务特别评选出了“创新技术奖”,专门用于鼓励创新性技术的使用。

据统计,今年共有1666支队伍报名参加了评测任务,参赛队伍数量是去年的6倍(2018年,288支),最终有698支队伍提交结果。同时,本次大会还收到39篇评测论文投稿,录用论文30篇,口头报告12篇,海报展示28篇。

测评任务报名情况评测任务一:面向中文电子病历的命名实体识别,阿里健康的Alihealth团队获得了子任务1的一等奖,国防科技大学计算机学院的NUDT-YH团队获得子任务2一等奖。技术创新奖由清华-讯飞联合实验室MSIIP队获得。

评测任务二:面向中文短文本的实体链指,第一名获得者是东北大学的FREE团队;技术创新奖由同济大学烟雾弹大师法棍诺团队获得。

评测任务三:人物关系抽取,Sent-Track和Bag-Track的一等奖分别由国双科技的格物致知团队和Lenove Research的LEKG团队获得,技术创新奖则被东北大学NEU_DM1收入囊中。

评测任务四:面向金融领域的事件主体抽取,第一名被哈工大(深圳)-图灵联合实验室的糯米糍团队拿下,技术创新奖由广东外语外贸大学GDUFSER获得。

评测任务五:公众公司公告信息抽取,一等奖和技术创新奖均被美能华智能科技包揽。

评测任务六:中文知识图谱问答,第一名被百度智珠尹存祥团队收获,技术创新奖由华为SUDA团队获得。

主会还包括知识图谱顶级会议回顾及研究进展报告,优秀学术论文报告,学术论文口头报告,Poster Spot Highlight,知识图谱工业界论坛等环节,邀请了国内外专家学者讲授相关领域的最新进展、发展趋势和实战经验。作为本次大会的亮点,知识图谱工业界论坛设立了企业知识图谱、金融知识图谱、工业及公安知识图谱、医疗知识图谱四个分论坛,华为、滴滴、美团、小米、阿里等产业界的研发人员带来了16场精彩报告,分享了他们在知识图谱构建、应用和测评方面的实践经验,促进产学研的合作。

CCKS2020将于明年在江西南昌举办,江西师范大学计算机信息工程学院作为大会的承办方将为我们带来更为精彩的学术与技术盛宴,让我们共同期待明年盛会的到来。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业CCKS2019知识图谱中科院苏州大学
相关数据
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
云知声机构

云知声成立于2012年,是一家专注物联网人工智能服务、拥有完全自主知识产权、世界顶尖智能语音识别技术的高新技术企业。总部位于北京,在上海、深圳、厦门设有分公司。自成立以来,发展迅速,备受人工智能行业及资本市场的广泛关注,累积融资近亿美元,合作伙伴数量也已经超过2万家 。

https://www.unisound.com/
吕正东人物

华为诺亚方舟实验室高级研究员,曾在微软亚洲研究院工作。研究兴趣:机器学习、数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
深度好奇机构

深度好奇2016年创立于北京,成立初期即获千万级天使轮投资。公司由NLP领域的著名专家吕正东(前MSRA、华为诺亚方舟实验室资深研究员)创办,致力于用最前沿的语义技术提高垂直领域销售、决策、风控等核心环节的效能。深度好奇的技术团队将深度学习和符号智能结合, 独家研发出用于复杂语言理解的神经符号系统,在国内NLP技术中具有范式性和引领性,所研发的系列产品深受行业客户认可。

http://deeplycurious.ai/
小米机构

小米是中国一家专注于智能硬件、智能家居以及软件开发的企业,于2010年4月6日成立,总部位于中国北京,截至2018年3月31日,员工人数近1.45万。 2010年8月及12月,小米发布了基于安卓系统深度定制的第三方固件MIUI及首款移动应用米聊。2011年8月16日,小米正式推出了其第一款硬件产品——小米手机(一代),开创了以互联网线上抢购高配置、低售价的智能手机销售模式。 通过旗下生态链品牌MIJIA(米家),小米的产品线从智能手机及耳机、移动电源等手机周边产品和音箱、手环等相关移动智能硬件,扩展到智能电视、机顶盒、路由器、空气净化器、电饭煲等家居消费产品。截至2018年3月底,小米已进入全球74个国家和地区的市场,并在其中15个市场智能手机出货量名列前五。 2012年,小米全资买入北京多看科技有限公司,进入电子书阅读领域。多看阅读是旗下网站,并有相应的App。2018年,业界传闻小米有计划生产电子阅读器。 2018年5月3日,小米正式向香港交易所提交IPO申请[6],于2018年7月9日以同股不同权的方式挂牌上市,并计划于7月23日纳入恒生综合指数。 2018年11月19日,美图公司与小米集团宣布达成战略合作伙伴关系,合作期限30年。

李涓子人物

李涓子,博士,清华大学长聘教授,博士生导师。中国中文信息学会语言与知识计算专委会主任。研究方向为知识工程、语义Web和文本挖掘。

推荐文章
暂无评论
暂无评论~