国内接收论文占四成,图神经网络大火,ACM CIKM2019最佳论文已出炉

昨晚,在北京举行的信息检索顶会 ACM CIKM 2019 上,来自以色列的研究者获得了最佳论文奖项,阿里巴巴获最佳应用论文奖,最佳 Demo 奖则颁给了 IBM 的研究者。

ACM CIKM 全称为(ACM International Conference on Information and Knowledge Management),是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。自 1992 年首次举办以来,它已经在全球的 8 个国家举行过 27 次会议,今年的大会是 CIKM 第二次来到中国。

在 11 月 3 日到 7 日举行的大会中,Steve Maybank、韩家炜裴健和石建萍等著名学者都将发表主题演讲。此外大会还有十余场行业演讲,以及讨论会议等活动。

本届大会吸引了超过 700 人前来参会,热度颇高。同时,众多华人学者和研究也成为了大会上的亮点。

国内学者占据四成

今年的 CIKM 收到 1676 篇提交论文(其中包括 1031 篇长论文和 471 篇短论文),经过同行评审,共有 202 篇长论文、107 篇短论文和 37 篇应用研究论文被接收。总接受率约为 21%。

为了促进人工智能、大数据等方向的业界研究,今年的大会论文也新增了应用论文 Track,与学界 Track 并列。所有的接收论文都有口头宣讲和海报展示。

「在学术研究取得一定进展之后,我们必须探讨如何把这些新技术转换到实际的问题中,」本届大会主席、澳大利亚科学院院士、悉尼大学教授陶大程表示。「这可以解决工业界此前无法解决的问题。在产业界,我们也可以从新的角度发现问题。」

在1700余篇提交论文中,来自中国的学术机构和公司占据了其中的 700 余篇,比例超过四成,成为了本届大会上提交论文数量最多的国家。

CIKM 2019 大会程序委员会主席、清华大学计算机科学与技术系副教授崔鹏说道:「近年来,国内学者在人工智能等领域的学术会议上正扮演着越来越重要的角色。在数据挖掘领域,近三年中国也呈崛起的态势。最近研究水平的进步,需要感谢政策环境的支持,以及相关产业发展的推动。」

把目光放到更远,其实华人在数据挖掘领域中一直以来都有着很大贡献。其中最为著名的当属 IEEE、ACM 院士,伊利诺伊大学香槟分校教授韩家炜,他被认为是数据挖掘的「开山鼻祖」,论文被引用量超过 17 万次,H-index 高达 171。数据挖掘顶级会议 KDD,就是在在韩家炜等人的推动下成为了重要的学术会议。今年,韩教授也作为程序委员会资深成员来到了大会现场。

「在数据挖掘领域里有很多著名的华人学者,包括韩家炜,俞士纶(Philip S. Yu)、Wang Ke、吴信东等等,」陶大程介绍道。「他们对推动数据挖掘的发展作出了杰出的贡献。纵观历史,华人在数据挖掘领域里起着非常重要的位置。」

最佳论文出炉

CIKM 2019 论文奖项分为三个:最佳研究论文、最佳应用论文与最佳 Demo。

最佳研究论文由来自以色列内盖夫本-古里安大学的 Noy Cohen 等人获得。

论文链接:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf

摘要:近来,非机器学习人士也希望能够使用相关的算法进行应用。其中一个主要的挑战是,他们需要选择算法并用它来解决问题。如果能够选择正确的算法,在给定数据集、任务和评价方法的情况下可以使算法得到很好的效果。

本文中,研究者提出了一个名为 AutoGRD 的算法,这是一种新颖的元学习算法,用于算法推荐。AutoGRD 首先将数据表示为图,并将其隐式表示提取出来。提取出来的表示会被用来训练一个排序元模型,这个模型能够精确地对未见数据集提供表现最好的算法。研究者将这一算法在 250 个数据集上进行了测试,在分类和回归任务上都表现出了很高的性能,而且 AutoGRD 比现有的元学习 SOTA 模型和贝叶斯算法表现得都要好。

最佳研究论文第二名由北大、微软研究院和阿里巴巴的研究者获得。

论文链接:http://www.cikm2019.net/attachments/papers/p409-longA.pdf

摘要:为了描述现实世界无处不在的关系数据,网络数据已经广泛应用于复杂关系的建模中。因此,将顶点(vertice)映射到低维空间(即网络嵌入)适用于各种各样的预测任务。大量的研究利用了成对接近性(pairwise proximity),这是真实网络具有的特性。聚类性,即顶点倾向于形成各种规模的社区——由此形成一个囊括不同社区的层级结构,则是另一种属性。这类研究却没有引起研究者的关注。

在本文中,研究者提出了一种子空间网络嵌入框架(Subspace Network Embedding,SpaceNE),该框架保留了社区通过子空间形成的层级结构,并具有灵活的维数以及固有的层次结构,并且本质上是层次结构。此外,他们提出子空间能够解决表征层级社区的更多问题,包括稀疏性和空间扭曲。

最后,研究者提出了要降噪的子空间维数的约束条件,这些约束条件通过可微分函数进一步逼近,从而使联合优化成为可能。与此同时,他们还采用了逐层方案来减少由参数过度引起的开销。研究者进行了各种实验,结果证明了 SpaceNE 模型在解决社区层级结构方面是有效的。

最佳应用论文作者来自阿里巴巴

论文链接:https://arxiv.org/pdf/1908.10679.pdf

摘要:购物网站上的评论会影响到用户的购买决定,同时还会吸引到大批致力于误导买家的垃圾评论。二手商品交易网站闲鱼就饱受垃圾评论困扰。闲鱼的反垃圾评论系统面临两大挑战:数据的可扩展性以及垃圾评论者的敌对行为。

在这篇论文中,阿里的研究者提出了这些挑战的应对方案。他们提出了一个基于图卷积网络(GCN)的大规模反垃圾评论方法——GAS,用于检测闲鱼上的垃圾广告。这个模型结合了异构图和同构图来捕获内容的本地上下文和全局上下文。离线实验表明,他们提出的方法优于利用评论信息、用户特征和被浏览商品信息的基线方法。此外,他们还将模型部署在了闲鱼上,每天处理上百万的数据。在线性能也证明了模型的有效性。

最佳 Demo 奖项颁给了 IBM 的研究者。

论文链接:https://arxiv.org/abs/1909.01606

摘要:深度学习(DL)模型正变得无处不在,但大多数软件开发者并非深度学习专家,因此很难用上蓬勃发展的 DL 模型。TensorFlow、pyTorch 等各种不兼容的 DL 编程框架的普遍使用使得这一情况变得更加糟糕。

为了解决这一问题,IBM 的研究者提出了一种名为 Model Asset Exchange(MAE)的系统,使得开发人员可以方便地利用当前最新的 DL 模型。无论底层的 DL 编程框架是什么,该模型都能提供一个开源的 Python 库(MAX 框架),该库封装 DL 模型,并使用标准化的 RESTful API 统一编程接口。这些 RESTful API 使得开发者能够在推理任务中利用封装的 DL 模型,无需完全理解不同的 DL 编程框架。利用 MAX,研究者封装并开源了来自不同研究领域的 30 多个 SOTA DL 模型,包括计算机视觉、自然语言处理和信号处理等。

图神经网络成为最大趋势

这届 CIKM 的主题是「赋能未来生活的人工智能」,可见以深度学习为主要动力的人工智能技术在信息提取、数据挖掘领域中已经成为了主流技术。

「当前,全世界各个国家都在制定自己的人工智能战略。不仅仅是中国,美国、英国、欧盟、澳大利亚都在制定自己的战略,」陶大程表示。「我们认为,未来它会渗透到生活的各个方面。人工智能其中主要是机器学习和深度学习,本届大会希望讨论深度学习和传统的统计学习在未来会有什么样的发展趋势。」

在大会上,很多学者都认为图神经网络方面的研究成为了最近一段时间以来,信息提取、数据挖掘中的热点,不过在这一方面,人们还有很多可以发展的方向。

「在图卷积神经网络(GCN)上我们使用的定义还是历史性的,还有很多事情要去做,」陶大程说道。「相较于传统算法,人们在图网络的理论分析上还有所欠缺,真正的发展还需要一些时间。目前,想要让图网络获得很好的效果,往往需要依赖于在参数和模型上的不断调整尝试。」

陶大程也表示,即便如此,图网络相对于传统算法还是展现出了很多优势,并在很多研究中已经取得了比较好的效果。

崔鹏教授则指出了图神经网络的局限性:「我们认为问题的核心在于处理拓扑结构,目前大家普遍的观点是 GCN 已经可以很好地处理其中的一部分了。但另一方面,我们也发现 GCN 擅长解决的是特征驱动——比如节点的标签是由节点本身的特征决定的,这方面 GCN 做得比较好,能够很好地抑制噪声;如果标签的产生并不是由特征驱动的,而是由拓扑结构决定的,则图卷积神经网络就不能解决问题。」

在知识检索任务中,建立知识网络是解决用户检索需求的重要环节。面向未来,深度学习等技术还有很多挑战需要解决。「从学术研究的角度来看,AI 也到了十字路口,」崔鹏表示。「目前的人工智能热潮毋庸置疑是深度学习推动起来的。但到今天为止,我们也看到了很多问题,包括鲁棒性、可解释性、公平性等等。」

目前,ACM CIKM 2019 大会正在北京举行中。今明两天,大会主要围绕机器学习、深度学习方面的理论和应用,以及工业界在相关领域的研究进行研讨。机器之心也会关注后续内容,并为读者带来新的消息。

入门最佳论文数据挖掘图神经网络CIKM 2019
3
相关数据
裴健人物

京东集团副总裁,加拿大一级研究讲座教授(大数据科学领域)、加拿大西蒙弗雷泽大学计算科学学院教授、统计与精算学系和健康科学院兼职教授,前华为首席科学家。裴健在数据科学、大数据、数据挖掘和数据库系统等领域,是世界领先的研究学者,擅长为数据密集型应用设计开发创新性的数据业务产品和高效的数据分析技术。他是国际计算机协会(ACM)院士和国际电气电子工程师协会(IEEE)院士,ACM SIGKDD(数据挖掘及知识发现专委会)现任主席。因其在数据挖掘基础、方法和应用方面的杰出贡献,裴健曾获得数据科学领域技术成就最高奖ACM SIGKDD Innovation Award(ACM SIGKDD创新奖)和IEEE ICDM Research Contributions Award(IEEE ICDM研究贡献奖)。

韩家炜人物

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。

相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
推荐文章
暂无评论
暂无评论~