国际数据挖掘顶会 KDD 2020 刚刚公布了最佳论文、最佳学生论文等多个奖项。最佳论文奖由谷歌的研究者摘得,最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊摘得。此外,汤继良、盛胜利、唐杰等华人学者在本届 SIGKDD 大会上也斩获了多项大奖。
第 26 届 ACM SIGKDD 知识发现和数据挖掘会议(KDD)将于太平洋标准时间 8 月 23 日 - 27 日以虚拟方式召开。刚刚,最佳论文、最佳学生论文等多个奖项悉数出炉。KDD 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。尽管本次会议在线上举办,但仍然提供与往年相同的活动内容,包括主题演讲、专题小组、特邀报告、精选研究、应用数据科学论文、信息实践教程和 workshop。KDD 2020 联席主席 Rajesh K. Gupta 表示:「最初我们希望会议至少一部分是『面对面』的,但组委会最终决定,对于我们这个社区来说,以完全虚拟的方式举行会议是最安全的选择。」KDD 2020 联席主席、南加州大学计算机科学系副教授 Yan Liu 表示:「在过去的三十年里,数据科学实现了爆炸式的增长,正在重塑着众多不同的学科。KDD 2020 的应用数据科学特邀演讲嘉宾就是一个例子,今年我们邀请到了 18 位业界领先的专家,他们来自西门子、微软、Facebook、谷歌、亚马逊和优步等顶尖企业。」本次会议将包含 4 场主题演讲、18 场应用数据科学特邀报告,217 篇接收论文将在包括口头报告、workshop、tutorial 在内的共 43 场活动中分别进行展示。4 场主题演讲的内容分别是《Explanations that Matter through Meta-Provenance》、《AI for Intelligent Financial Services: Examples and Discussion》、《A Look at State-Space Multi-Taper Time-Frequency Analysis》、《Computational Epidemiology at the Time of COVID-19》。今年的最佳论文奖由来自谷歌的研究者 Walid Krichene、Steffen Rendle 摘得,获奖论文是《On Sampled Metrics for Item Recommendation》。项目推荐(item recommendation)任务需要根据给定的条件对大型项目目录进行排序。项目推荐算法是使用依赖于相关项目位置的排名度量指标来评估的。为了加快度量指标的计算,近来的一些研究经常使用抽样的度量指标(sampled metrics),仅对较小的一组随机项和相关项进行排序。Google 研究小组对这些抽样指标进行了更详细的研究,结果表明它们与其 exact version 不一致。也就是说,它们没有保持 relative statements。最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北京航空航天大学的段逸骁、杨建磊摘得,获奖论文是《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》。这篇论文的亮点在于:杜克大学的研究小组提出了一个任务独立、尊重隐私的数据众包框架——TIPRDC。它带有匿名中间表征。该框架的目标是学习一个能够向中间表征隐藏隐私信息的特征提取器,同时最大限度地保留嵌入在原始数据中的原始信息,以供数据收集器完成未知的学习任务。论文第一作者 Ang Li 是杜克大学电子和计算机工程系的一名在读博士,导师为陈怡然和 Hai "Helen" Li 教授。Ang Li 的主要研究方向是移动和 IoT 平台上的深度学习系统。在进入杜克大学之前,他曾在 2018 年获得阿肯色大学计算机科学博士学位,2013 年获得北京大学软件工程硕士学位,2010 年获得河南大学计算机科学本科学位。他的导师陈怡然教授是 IEEE Fellow,本科和硕士就读于清华大学,博士毕业于美国普渡大学,现任杜克大学电子与计算机工程系教授、杜克大学计算进化智能中心主任,同时也是美国 NSF 新型可持续智能计算中心主任。来自弗吉尼亚大学的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和来自纽约州立大学布法罗分校的 Liuyi Yao 获得了最佳论文的亚军,获奖论文是《Malicious Attacks against Deep Reinforcement Learning Interpretations》。这篇论文将深度学习和强化学习结合(DRL),并证明了其在众多序列决策问题中建模 dynamics 的能力。为了提高模型的透明度,已经有研究提出了针对 DRL 的各种解释方法。但是,这些 DRL 解释方法隐式地假定它们是在可靠和安全的环境中执行的,但在实际应用中并非如此。弗吉尼亚大学的研究团队调查了一些 DRL 解释方法在恶意环境中的漏洞。具体而言,他们提出了第一个针对 DRL 解释的对抗性攻击的研究,提出了一个优化框架来解决所研究的对抗性攻击问题。创新奖也是 KDD 大会颇具分量的奖项,旨在表彰在数据发现和数据挖掘领域做出杰出技术贡献的研究者,这些贡献对促进理论和 / 或商业系统的发展产生了持久的影响。它是数据发现和数据挖掘领域的最高技术奖项,获奖者通常为某一领域的学术领袖。伊利诺伊大学香槟分校计算机系教授韩家炜、伊利诺伊大学芝加哥分校杰出教授刘兵、加拿大西蒙弗雷泽大学教授裴健和清华大学数据科学研究院院长俞士纶等华人学者都获得过此奖项。获得 KDD 2020 创新奖的是康奈尔大学计算机科学与信息科学教授 Thorsten Joachims,获奖理由是「他在机器学习方面的贡献广受认可,包括信息检索中的人类偏见、支持向量机、结构化输出预测等方面的重要研究」此外,Thorsten Joachims 以往参与的研究曾获得过 9 项最佳论文奖和 4 项时间检验奖,最近的奖项为 SIGIR 2020 最佳论文《Controlling Fairness and Bias in Dynamic Learning-to-Rank》。SIGKDD 服务奖旨在表彰在数据发现和数据挖掘领域提供杰出服务的个人或团队,包括专业协会和会议的运营、学生和专业人士的教育、资助研发活动等专业服务。本次服务奖的获得者为淡马锡人工智能战略和解决方案负责人 Michael Zeller,他在 KDD 执行委员会工作了八年,在多个 KDD 会议的策划中发挥了重要作用,促进了研究机构与行业组织之间形成牢固的伙伴关系,并特别强调人工智能的应用,这也是知识发现领域持续取得成功的关键。ACM SIGKDD 学位论文奖旨在表彰在数据科学、机器学习和数据挖掘领域做出的杰出研究生工作。今年的学位论文奖颁给了加州大学伯克利分校计算机科学新晋助理教授 Rediet Abebe 的博士论文——《Designing Algorithms for Social Good(公益算法的设计)》。Abebe 是首位进入哈佛学会(Harvard Society of Fellows)的计算机科学女性科学家,还参与创立了 Mechanism Design for Social Good(MDSG)。加州大学圣地亚哥分校计算机科学助理教授 Jingbo Shang 凭借其《Constructing and Mining Heterogeneous Information Networks from Massive Text》获得学位论文奖的第二名。Rising Star Award(新星奖)是 ACM SIGKDD 今年新设的一个奖项,旨在奖励博士毕业五年内取得突出成果的研究者。获得今年新星奖的有两位研究者:密歇根大学计算机科学与工程 Morris Wellman 助理教授 Danai Koutra 和密歇根州立大学计算机科学与工程助理教授汤继良。Danai Koutra 在大规模数据挖掘方面的研究集中于有原则的、可解释的、可扩展的网络总结和多网络分析方法。汤继良的著名工作主要集中于表征学习领域,特别是图网络及其在网络和社交媒体领域的应用。汤继良本科、硕士毕业于北京理工大学,之后前往美国亚利桑那州立大学攻读计算机博士,师从 IEEE Fellow、ACM Fellow 刘欢教授。2016 年,汤继良获 SIGKDD 最佳应用论文奖。目前,他的 Google Scholar 被引量已经超过 12000 次。SIGKDD 时间检验奖旨在表彰过去十年对数据挖掘研究社区产生重大影响且目前仍被引作新研究分支基础的 KDD 大会杰出论文。今年的时间检验研究奖(Test of Time Award for Research)颁给了 Victor S. Sheng(盛胜利)、Foster Provost 和 Panagiotis Ipeirotis 等人合著的《Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers》(2008)。该论文讨论了标签不完善时重复获取数据项标签的问题。论文链接:https://archive.nyu.edu/bitstream/2451/25882/4/kdd2008.pdfVictor S. Sheng 本科毕业于苏州大学,之后在加拿大西安大略大学获博士学位。他现在是德克萨斯理工大学(Texas Tech University)计算机系副教授,主要研究领域为数据挖掘与机器学习、大数据、深度学习、人工智能、数据安全和决策支持及其在商业、医疗诊断、软件工程等领域的应用。目前,Victor S. Sheng 在 Google Scholar 上的被引量已经接近 6000。SIGKDD 时间检验应用科学奖(Test of Time Award for Applied Science)也是今年新设立的奖项,旨在表彰在现实世界应用中产生真正影响的数据科学研究工作。今年的时间检验应用科学奖颁给了唐杰、李涓子等人合著的《ArnetMiner: Extraction and Mining of Academic Social Networks》(2008)。唐杰是清华大学计算机科学与技术系长聘教授,研究兴趣包括社会网络分析、数据挖掘、机器学习和知识图谱等。2006 年,他主持研发了研究者社会网络挖掘系统 AMiner。今年年初,他又参与创办了一个 AI 新期刊——《ai open》并担任主编,专注于 AI 的开放共享,此举得到了刘知远、刘群、马少平等多位国内研究者的支持。最后,如果你想了解更多的 KDD 2020 接收论文,可以参考这个官方列表:https://www.kdd.org/kdd2020/accepted-papers,每篇论文几乎都有对应的视频介绍。 理论KDD 2020最佳论文数据科学KDD杜克大学数据挖掘