今年的 ACM SIGKDD 知识发现和数据挖掘会议(KDD)已于 8 月 4 日-8 日在美国阿拉斯加州安克雷奇举行。大会公布了最佳研究论文、最佳应用论文、最佳博士论文、时间检验奖、创新奖等诸多奖项。纵观 KDD 历年获奖者可以发现两个值得关注的现象:1)华人学者在其中占了很大比例,而且其中很多人拿到的是颇具份量的奖项;2)很多获奖的后起之秀都是之前获奖大牛的学生,印证了「名师出高徒」这一古话。另外,KDD 的组委会也是卧虎藏龙,隐藏着很多教科书级别的学者。本文就来盘点一下 KDD 大会的这些风云人物。
KDD 最佳论文奖旨在表彰对知识发现和数据挖掘的基本理解起到推动作用的 KDD 大会论文,分为研究赛道和应用赛道。每个赛道又分为最佳论文奖和最佳学生论文奖。今年研究赛道的最佳论文奖由康奈尔大学的 Kun Dong、Austin Benson、David Bindel 等人获得。Kun Dong 是康奈尔大学数学专业博士生,师从康奈尔大学计算机系副教授 David Bindel。David Bindel 也曾于 2015 年获得 KDD 最佳学生论文奖。此外,今年研究赛道的最佳论文亚军也出自华人学者,由皇家墨尔本理工学院的 Yipeng Zhang 等人获得。细数往年,华人学者夺得 KDD 最佳论文奖的例子不胜枚举,包括:2018 年最佳学生论文:中国科学技术大学 Hongyuan Zhu 等人;
2017 年应用赛道最佳论文:西弗吉尼亚大学 Yanfang Ye 等人;
2016 年应用赛道最佳论文:雅虎公司的 Dawei Yin 等人;
2016 年应用赛道最佳学生论文:墨尔本大学 Yu Sun 等人;
2015 年最佳学生论文:康奈尔大学 Wenlei Xie 等人;
2014 年研究赛道最佳学生论文:亚利桑那州立大学 Yashu Liu 等人
……
除了最佳论文,SIGKDD 创新奖也是这一大会颇具分量的奖项,旨在表彰在数据发现和数据挖掘领域做出杰出技术贡献的研究者,这些贡献对促进理论和/或商业系统的发展产生了持久的影响。它是数据发现和数据挖掘领域的最高技术奖项,获奖者往往都是某个领域的学术领袖。今年的创新奖得主是 IBM T.J. Watson 研究中心杰出研究员 Charu Aggarwal 博士。他因在高维数据、隐私、数据流、不确定数据、图、文本挖掘、社交网络等方面的贡献而受到表彰。在此之前,过去三年的 KDD 创新奖都被华人学者包揽。他们分别是:伊利诺伊大学芝加哥分校杰出教授刘兵(2018)、加拿大西蒙弗雷泽大学教授裴健(2017)和清华大学数据科学研究院院长俞士纶(Philip S. Yu)(2016)。此外,2004 年 KDD 创新奖颁给了伊利诺伊大学香槟分校计算机系教授韩家炜,他是裴健教授在加拿大西蒙弗雷泽大学的博士生导师。韩家炜教授目前任教于利诺伊大学香槟分校(UIUC)计算机系,他是 IEEE 和 ACM Fellow,曾任美国 ARL 资助的信息网络联合研究中心主任。此外,他还担任过 KDD、SDM 和 ICDM 等国际知名会议的程序委员会主席,创办了 ACM TKDD 学报并任主编。韩家炜有「数据挖掘第一人」之称,他在数据挖掘、数据库和信息网络领域发表论文数百篇,在 Google Scholar 上的被引用量接近 17 万次,h-index 高达 168。他的数据挖掘专著《Data Mining: Concepts and Techniques》(《数据挖掘概念与技术》)成为数据挖掘国内外经典教材。他曾获 IEEE ICDM 2002 杰出贡献奖、2009 年 IEEE 麦克道尔奖(the McDowell Award)等。
俞士纶教授现为清华数据科学研究院院长、美国伊利诺伊大学芝加哥分校(UIC)特聘主任教授。他是 ACM 和 IEEE Fellow、原 IEEE TKDE、ACM TKDD 主编。他在谷歌学术上的 H-index 高达 154,论文被引用量接近 11 万次,是名列全球计算机科学领域高引作者前十的华人。他曾于美国 IBM Watson 研究中心工作多年,创建了世界知名的数据挖掘及数据管理部,是 IBM 公司拥有专利最多的人之一。作为国际数据库和数据挖掘等领域的先驱之一、国际数据挖掘和数据管理领域的顶尖学者,他在专业领域做出了诸多奠基性工作。裴健教授目前担任 KDD 大会主席。他是加拿大西蒙弗雷泽大学计算机学院教授、ACM 和 IEEE Fellow。他的研究兴趣集中在研究和开发针对新颖的数据密集型应用的高效数据分析技术。他的研究领域包括数据挖掘、web 搜索、信息检索、数据仓库、联机分析处理、数据库系统及其在社会网络和社会媒体、医学信息学、商业智能等领域中的应用。除了 KDD 创新奖之外,裴健教授还获得过 IEEE ICDM 研究贡献奖(IEEE ICDM Research Contributions Award)。在数据挖掘、数据库系统和信息检索方面,裴健是学术界被引用次数最多的作者之一。自 2000 年以来,他在国际顶级学术期刊与会议上发表二百多篇论文,被引用量超过 87000 次。刘兵是伊利诺伊大学芝加哥分校杰出教授,ACM、AAAI 和 IEEE Fellow。他的研究兴趣包括情感分析、终身学习、数据挖掘、机器学习和自然语言处理等。除了创新奖之外,刘兵教授还有两篇论文获得过 KDD 2015 和 2014 的时间检验奖,分别是发表于 2004 年的《Mining and summarizing customer reviews》和发表于 1998 年的《Integrating Classification and Association Rule Mining》。论文 1:https://www.cs.uic.edu/~liub/publications/kdd04-revSummary.pdf论文 2:https://dl.acm.org/citation.cfm?id=3000305刘兵教授曾在 2013 年-2017 年间担任 KDD 主席,在今年的 KDD 大会上担任时间检验奖主席,此外,他还是许多数据挖掘顶会的程序主席,包括 ICDM,CIKM,WSDM,SDM 和 PAKDD 等。SIGKDD 服务奖旨在表彰在数据发现和数据挖掘领域提供杰出服务的个人或团队,包括专业协会和会议的运营、学生和专业人士的教育、资助研发活动等专业服务。今年的服务奖得主是 IBM Watson Health 杰出工程师 Balaji Krishnapuram,他因在开发机器学习产品改善医疗环境方面的社会贡献而受到表彰。与上述创新奖相同,服务奖的获奖者也包含多位华人教授,包括:香港科技大学教授杨强(2017)、加州大学洛杉矶分校教授 Wei Wang(2016)、加拿大西蒙弗雷泽大学教授裴健(2015)、新加坡电信公司旗下全资子公司 Dataspark CTO Ying Li(2012)以及美国路易斯安娜大学教授吴信东(2004)等。获得过 KDD 服务奖的华人教授(从左到右:吴信东、Ying Li、裴健、Wei Wang、杨强)从 1998 年正式成为 ACM 的一个特别兴趣小组(SIG)以来,KDD 已经走过了二十多个年头。最早的一批发起人和获奖者已经成为数据挖掘领域的学术领袖,在他们的指导下,一个个后起之秀正迅速成长起来,成为 KDD 大会和数据挖掘领域的新生力量。今年的 KDD 时间检验奖就颁给了斯坦福大学计算机科学副教授 Jure Leskovec 和他的导师卡内基梅隆大学计算机科学教授 Christos Faloutsos 等人。KDD 时间检验奖旨在表彰过去十年对数据挖掘研究社区产生重大影响的 KDD 大会杰出论文。他们的获奖论文是 2007 年合著的《Cost-effective Outbreak Detection in Networks》。论文链接:https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdfJure Leskovec(右)和他的导师 Christos Faloutsos(左)。Jure Leskovec 此前也有一篇论文获得 KDD 时间检验奖。上次的获奖论文是 2005 年发表的《Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations, KDD 2005》,这篇论文曾是当年的 KDD 最佳论文,又在 2016 年拿到了时间检验奖。论文链接:https://www.cs.cornell.edu/home/kleinber/kdd05-time.pdfChristos Faloutsos 教授拿过各种大会的多个时间检验奖,包括 SIGCOMM 时间检验奖(2010),两个 KDD 的时间检验奖、VLDB 时间检验奖(1997)、ECML/PKDD 时间检验奖(2015)等。此外,他还在各种会议上拿到过 20 多次最佳论文奖。除了 Jure Leskovec,Christos Faloutsos 教授指导的学生还有多人拿过 KDD 最佳博士论文奖或最佳博士论文奖亚军,包括:Jimeng Sun(KDD 2008 最佳博士论文奖亚军)
Lei Li(KDD 2012 最佳博士论文奖亚军)
U Kang(KDD 2013 最佳博士论文奖优秀奖)
Danai Koutra(KDD 2016 最佳博士论文奖,她在今年的 KDD 大会上担任 Tutorial Chair)
Alex Beutel(KDD 2017 最佳博士论文奖亚军。他也是 KDD 2014 最佳论文奖的得主)
Evangelos E. Papalexakis(KDD 2017 最佳博士论文奖亚军)
……
Jure Leskovec 指导的学生也很出色。他在斯坦福大学的学生 Tim Althoff 拿到了今年的最佳博士论文奖。他的获奖论文是《DATA SCIENCE FOR HUMAN WELL-BEING》论文链接:http://timalthoff.de/docs/althoff-2018-phd_thesis.pdfTim Althoff 博士毕业于斯坦福大学,目前在华盛顿大学计算机科学和工程学院担任助理教授。他致力于通过改进计算方法来为人类谋福祉,其研究方向结合了数据挖掘、社交网络分析和自然语言处理。除了 KDD 最佳博士论文外,他的论文还拿到过国际医学信息学学会(International Medical Informatics Association)的最佳论文。除了 Christos 教授的弟子们,KDD 最佳博士论文奖的获奖者中也有不少是韩家炜教授、卡内基梅隆大学邢波教授等大师的学生。其中,韩家炜教授的学生包括 2011 年最佳博士论文奖亚军 Tianyi Wu、2013 年最佳博士论文奖得主 Yizhou Sun、2015 年的最佳博士论文奖得主 Chi Wang 以及今年最佳博士论文奖亚军张超等;而 2015 年最佳博士论文奖亚军 Qirong Ho、2014 年最佳博士论文奖得主 Gunhee Kim 等则是邢波教授的高徒。除了各大奖项背后的大牛外,KDD 的主席团里也是卧虎藏龙,他们中也有不少人拿到过 KDD 的各种奖项。Vipin Kumar 是美国明尼苏达大学的教授。他是 IEEE、AAAS、ACM、SIAM Fellow。他的研究兴趣涵盖数据挖掘、高性能计算及其在气候/生态系统、医疗中的应用。他的研究论文超过 300 篇,合著的书达到十部,其中包含两本教科书:《Introduction to Parallel Computing》和《Introduction to Data Mining》,这两本书在世界范围内广泛传播,已经被翻译成了多种文字。除了 KDD 2019 之外,Kumar 还是其他许多数据挖掘、大数据、高性能计算领域国际大会的主席或区域主席,包括 2015 年 IEEE 国际大数据大会(IEEE International Conference on Big Data)、2002 年 IEEE 国际数据挖掘大会(IEEE International Conference on Data Mining)、2001 年并行与分布式处理国际研讨会(International Parallel and Distributed Processing Symposium)等。此外,Kumar 还参与创办了 SIAM 数据挖掘国际大会(SIAM International Conference on Data Mining)并担任《统计分析与数据挖掘(Statistical Analysis and Data Mining)》杂志的联合主编。2012 年,Vipin Kumar 获得 KDD 创新奖。此外,他还获得过 IEEE 计算机学会颁发的高性能计算最高奖项——西德尼·冯巴克奖(Sidney Fernbach Award)(2016)。他的学生 Gaurav Pandey 获得过 2011 年 KDD 最佳博士论文奖。程序委员会主席(PC Chair)George KarypisGeorge Karypis 是美国明尼苏达大学教授,因在数据挖掘、推荐系统、高性能计算等领域的创造性贡献而闻名。他在聚类、图挖掘、模式识别、协同过滤、图划分等领域的许多论文都有很高的引用量。他的 h-index 高达 91,论文被引用量超过 65000 次。此外,他还通过一系列高质量的软件包(如 CLUTO、METIS)将自己的理论应用到实践中,他开发的软件已被纳入 200 多种不同的商业软件系统。他曾获「IEEE ICDM 研究贡献奖」,该奖项是 IEEE 对数据挖掘领域研究成就的最高认可。此外,他还获得过「IEEE ICDM 10 年最高影响论文奖」以及国际万维网大会颁发的「首尔时间检验奖(Seoul Test of Time Award)」,获奖理由分别是开发了挖掘大型图数据库的计算高效算法和创建探索条目间关系的新型推荐系统。Yehuda Koren 是谷歌的研究科学家,他曾在雅虎担任高级研究科学家,研究兴趣包括推荐系统、数据挖掘、机器学习、信息可视化等。他带领的团队在 Netflix Prize 比赛中拿到过两次进步奖(progress award),参与的团队拿到过 2009 年 Netflix Prize 比赛的百万美金大奖。当年比赛的题目是 netflix 电影评分预测,Yehuda Koren 所在团队提出的算法在测试集上的均方根误差为 0.8567,比比赛开始时的最高成绩提高了 10.06%。Yehuda Koren 等人当年做出的算法是基于矩阵分解的算法,优于传统的最近邻基础,已经成为现在几乎所有推荐系统的基础。算法有关论文:https://datajobs.com/data-science-repo/Recommender-Systems-[Netflix].pdf2018 年,Yehuda Koren 有关推荐算法的论文拿到了 KDD 的时间检验奖。论文链接:https://www.cs.rochester.edu/twiki/pub/Main/HarpSeminar/Factorization_Meets_the_Neighborhood-_a_Multifaceted_Collaborative_Filtering_Model.pdf当然,以上列举的研究者只是 KDD 大会风云人物的冰山一角,还有更多的研究者值得我们关注,欢迎在留言区进行补充。