Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

2019 CCKS聚焦知识智能,苏州大学、中科院斩获中英最佳论文

8月24日至27日,由中国中文信息学会语言与知识计算专业委员会主办,浙江大学承办的2019年全国知识图谱和语义计算大会(CCKS:China Conference on Knowledge Graph and Semantic Computing)在杭州召开。本届大会以“知识智能”为主题,吸引了近千名国内外高校、研究院以及企业相关领域的学者和研究人员参会,围绕知识图谱、语义计算和语言理解的关键技术和应用等话题展开了深入探讨。

CCKS是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议:中文知识图谱研讨会The Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。

全国知识图谱与语义计算大会致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议,聚集了众多知识表示、自然语言理解、智能问答、知识抽取、图数据库等相关技术领域的学者和研究人员,力求为我国语言与知识计算领域的学术研究和产业发展,为从事相关理论和应用研究的学者、机构和企业提供广泛交流的平台。

大咖云集 共论未来发展

CCKS2019分为讲习班和主会两个部分。在8月24-25日举办的《前沿技术讲习班》——知识图谱专题(CIPS ATT16)论坛中,六名中外知名青年学者与企业代表带来了精彩的学术前沿和应用技术报告。加州大学圣巴巴拉分校教授严锡峰,南加州大学助理教授任翔,密歇根州立大学助理教授Jiliang Tang ,新泽西州立大学助理教授张永峰,以及腾讯微信模式识别中心高级研究员林衍凯,深度好奇创始人吕正东,分别以“自然语言界面、知识图谱构建和推理、图深度学习、知识指导的自然语言理解、可解释推荐和阅读理解”等为主题作了分享。

在8月26日召开的CCKS2019开幕式上,中文信息学会理事长方滨兴院士为大会开幕式致辞,清华大学李涓子教授代表语言与知识计算专委会致辞,CCKS2019大会主席清华大学朱小燕教授、程序委员会主席哈尔滨工业大学秦兵教授分别为大会致辞并介绍大会情况,本次大会承办方主席、浙江大学陈华钧教授主持了开幕式。

在特邀报告环节,英国南安普顿大学计算机科学教授Wendy Hall作了题为《Web Science, AI and Future of the Internet》的报告,她从人工智能发展带来的潜在威胁入手,指出必须采用社会技术方法分析互联网的发展,以确保未来的互联网能够帮助人们创造一个理想生活的世界。伊利诺伊大学香槟分校Heng Ji 教授带来了题为《PaperRobot: Scientific Knowledge Graph Construction and Paper Writing》的报告,分享了她们在利用知识图谱进行论文阅读理解、发现新研究思路以及自动构写论文摘要等方面的研究成果。加拿大滑铁卢大学李明教授以《第三代聊天机器人》为题作了精彩分享,他介绍了现有聊天机器人存在的不足,提出第三代聊天机器人架构和可行的实现方法。百度首席技术官王海峰博士作了《知识图谱与语义理解》的报告,介绍了百度知识图谱与语义理解技术及应用方面的工作,并对其未来发展方向做了进一步探讨。

最佳中英论文出炉

本届大会收录论文53篇,其中Oral论文13篇,Poster论文40篇。《基于简介文本的中文人物关系图谱属性补全与纠错》获得了本次大会的中文最佳论文,作者是苏州大学计算机科学与技术学院的杨一帆、马进、 王海涛、 何正球、陈文亮、张民。

该文描述了从百科类数据构建人物关系图谱的过程,作者对人物属性和关系进行了归一化处理,为提高图谱的覆盖率和正确率,从文本中进行自动学习知识的纠错和补全,最终获得了包含百万级人物实体和千万级三元组的人物关系图谱。该文采用模式匹配统计模型相结合的策略从文档数据中自动学习补全和纠错属性,最终提高了知识图谱的正确率和覆盖率。

《Copy-Enhanced Contextual Information Learning for Dialogue State Tracking》获得了本次大会的英文最佳论文奖,作者是 Qingbin Liu、 Shizhu He、 Kang Liu、 Shengping Liu 、Jun Zhao,来自中国科学院自动化研究所模式识别国家实验室和北京云知声信息技术有限公司。

该文提出了一个复制增强的异构信息学习模型,该模型具有多个编码解码器用于DST(CEDST),通过复制异构文本中的值,可以有效地生成所有可能的值,包括未知值。同时,CEDST可以通过多个编码器将大状态空间有效地分解为多个小状态空间,并利用多个解码器充分利用减少的空间生成值。多编码器-解码器体系结构可以显著提高性能。实验表明,CEDST可以有效地减少空间生成值,同时CEDST在WoZ2、bAbI和他们构建的数据集上都实现了最优性能。

知识图谱评测竞赛奖项花落各家

CCKS每年都会面向公众发布评测任务,这一系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。

经过前期的评测任务征集和评测组委会筛选,CCKS 2019共设立6个相关主题评测任务,分别是:面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取、公众公司公告信息抽取以及开放领域的中文问答。专委会为每个任务前三名设立了奖金并颁发证书,同时组委会针对不同任务特别评选出了“创新技术奖”,专门用于鼓励创新性技术的使用。

据统计,今年共有1666支队伍报名参加了评测任务,参赛队伍数量是去年的6倍(2018年,288支),最终有698支队伍提交结果。同时,本次大会还收到39篇评测论文投稿,录用论文30篇,口头报告12篇,海报展示28篇。

测评任务报名情况评测任务一:面向中文电子病历的命名实体识别,阿里健康的Alihealth团队获得了子任务1的一等奖,国防科技大学计算机学院的NUDT-YH团队获得子任务2一等奖。技术创新奖由清华-讯飞联合实验室MSIIP队获得。

评测任务二:面向中文短文本的实体链指,第一名获得者是东北大学的FREE团队;技术创新奖由同济大学烟雾弹大师法棍诺团队获得。

评测任务三:人物关系抽取,Sent-Track和Bag-Track的一等奖分别由国双科技的格物致知团队和Lenove Research的LEKG团队获得,技术创新奖则被东北大学NEU_DM1收入囊中。

评测任务四:面向金融领域的事件主体抽取,第一名被哈工大(深圳)-图灵联合实验室的糯米糍团队拿下,技术创新奖由广东外语外贸大学GDUFSER获得。

评测任务五:公众公司公告信息抽取,一等奖和技术创新奖均被美能华智能科技包揽。

评测任务六:中文知识图谱问答,第一名被百度智珠尹存祥团队收获,技术创新奖由华为SUDA团队获得。

主会还包括知识图谱顶级会议回顾及研究进展报告,优秀学术论文报告,学术论文口头报告,Poster Spot Highlight,知识图谱工业界论坛等环节,邀请了国内外专家学者讲授相关领域的最新进展、发展趋势和实战经验。作为本次大会的亮点,知识图谱工业界论坛设立了企业知识图谱、金融知识图谱、工业及公安知识图谱、医疗知识图谱四个分论坛,华为、滴滴、美团、小米、阿里等产业界的研发人员带来了16场精彩报告,分享了他们在知识图谱构建、应用和测评方面的实践经验,促进产学研的合作。

CCKS2020将于明年在江西南昌举办,江西师范大学计算机信息工程学院作为大会的承办方将为我们带来更为精彩的学术与技术盛宴,让我们共同期待明年盛会的到来。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业苏州大学中科院知识图谱CCKS2019
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
云知声机构

云知声专注于物联网人工智能服务,是一家拥有完全自主知识产权、世界顶尖的智能语音识别、语义理解等技术的高新技术企业,总部位于北京,在上海、深圳、厦门、合肥设有子公司。公司员工500余人,核心研发团队近百人,其中 45% 拥有博士学历,工程师占比78%,拥有雄厚的科研和产业化实战能力。 云知声深入探索感知智能、认知智能、通用智能三大方向,在语音、语言、知识计算、大数据分析、人工智能芯片等领域建立了领先的核心技术体系,以此构建了完整的人工智能技术图谱。并率先在国内布局大规模异构并行超算平台 Atlas 和深度学习计算框架 UniFlow ,以领跑行业发展的技术实力,助力 AI 基础设施建设,服务国家 AI 战略。 基于“云、端、芯”技术产品体系,提供跨平台、跨场景,融合云端智能和本地智能一体化的 AI 系统解决方案,已在 AI 生活(家居、车载等)和 AI 服务(医疗、教育、政务、金融等)两大核心场景广泛落地。 目前合作伙伴数量已超过 2万家,覆盖用户已超过 2亿,日调用量超 4亿次,其中语音云平台覆盖的城市超过 647个,覆盖设备超过 1 亿台。 云知声自 2012 年成立以来,发展迅猛,备受人工智能行业及资本市场关注,累积融资数亿美元,并多次创下AI语音领域单轮融资记录。云知声连续两年入选福布斯中国最快科技成长公司 50 强企业,是中国人工智能行业成长最快的创业公司之一 。

https://www.unisound.com/
吕正东人物

华为诺亚方舟实验室高级研究员,曾在微软亚洲研究院工作。研究兴趣:机器学习、数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
深度好奇机构

深度好奇2016年创立于北京,成立初期即获千万级天使轮投资。公司由NLP领域的著名专家吕正东(前MSRA、华为诺亚方舟实验室资深研究员)创办,致力于用最前沿的语义技术提高垂直领域销售、决策、风控等核心环节的效能。深度好奇的技术团队将深度学习和符号智能结合, 独家研发出用于复杂语言理解的神经符号系统,在国内NLP技术中具有范式性和引领性,所研发的系列产品深受行业客户认可。

http://deeplycurious.ai/
小米集团机构

小米公司正式成立于2010年4月,是一家专注于智能手机自主研发的移动互联网公司,定位于高性能发烧手机。小米手机、MIUI、米聊是小米公司旗下三大核心业务。“为发烧而生”是小米的产品理念。小米公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。2018年7月,工业和信息化部向与中国联合网络通信集团有限公司首批签约的15家企业发放了经营许可证,批准其经营移动通信转售业务,其中包括:小米科技有限责任公司。 2018年7月9日,正式登陆香港交易所主板 。

https://www.mi.com/
李涓子人物

李涓子,博士,清华大学长聘教授,博士生导师。中国中文信息学会语言与知识计算专委会主任。研究方向为知识工程、语义Web和文本挖掘。

推荐文章
暂无评论
暂无评论~