张倩作者

名师出高徒,华人领风骚,KDD风云人物盘点

今年的 ACM SIGKDD 知识发现和数据挖掘会议(KDD)已于 8 月 4 日-8 日在美国阿拉斯加州安克雷奇举行。大会公布了最佳研究论文、最佳应用论文、最佳博士论文、时间检验奖、创新奖等诸多奖项。纵观 KDD 历年获奖者可以发现两个值得关注的现象:1)华人学者在其中占了很大比例,而且其中很多人拿到的是颇具份量的奖项;2)很多获奖的后起之秀都是之前获奖大牛的学生,印证了「名师出高徒」这一古话。另外,KDD 的组委会也是卧虎藏龙,隐藏着很多教科书级别的学者。本文就来盘点一下 KDD 大会的这些风云人物。

颁奖台上的华人学者
最佳论文奖
KDD 最佳论文奖旨在表彰对知识发现和数据挖掘的基本理解起到推动作用的 KDD 大会论文,分为研究赛道和应用赛道。每个赛道又分为最佳论文奖和最佳学生论文奖。今年研究赛道的最佳论文奖由康奈尔大学的 Kun Dong、Austin Benson、David Bindel 等人获得。
Kun Dong 是康奈尔大学数学专业博士生,师从康奈尔大学计算机系副教授 David Bindel。David Bindel 也曾于 2015 年获得 KDD 最佳学生论文奖。
此外,今年研究赛道的最佳论文亚军也出自华人学者,由皇家墨尔本理工学院的 Yipeng Zhang 等人获得。
细数往年,华人学者夺得 KDD 最佳论文奖的例子不胜枚举,包括:
  • 2018 年最佳学生论文:中国科学技术大学 Hongyuan Zhu 等人;

  • 2017 年应用赛道最佳论文:西弗吉尼亚大学 Yanfang Ye 等人;

  • 2016 年应用赛道最佳论文:雅虎公司的 Dawei Yin 等人;

  • 2016 年应用赛道最佳学生论文:墨尔本大学 Yu Sun 等人;

  • 2015 年最佳学生论文:康奈尔大学 Wenlei Xie 等人;

  • 2014 年研究赛道最佳学生论文:亚利桑那州立大学 Yashu Liu 等人

  • ……

创新奖
除了最佳论文,SIGKDD 创新奖也是这一大会颇具分量的奖项,旨在表彰在数据发现和数据挖掘领域做出杰出技术贡献的研究者,这些贡献对促进理论和/或商业系统的发展产生了持久的影响。它是数据发现和数据挖掘领域的最高技术奖项,获奖者往往都是某个领域的学术领袖。
今年的创新奖得主是 IBM T.J. Watson 研究中心杰出研究员 Charu Aggarwal 博士。他因在高维数据、隐私、数据流、不确定数据、图、文本挖掘、社交网络等方面的贡献而受到表彰。
在此之前,过去三年的 KDD 创新奖都被华人学者包揽。他们分别是:伊利诺伊大学芝加哥分校杰出教授刘兵(2018)、加拿大西蒙弗雷泽大学教授裴健(2017)和清华大学数据科学研究院院长俞士纶(Philip S. Yu)(2016)。此外,2004 年 KDD 创新奖颁给了伊利诺伊大学香槟分校计算机系教授韩家炜,他是裴健教授在加拿大西蒙弗雷泽大学的博士生导师。
韩家炜教授

韩家炜教授目前任教于利诺伊大学香槟分校(UIUC)计算机系,他是 IEEE 和 ACM Fellow,曾任美国 ARL 资助的信息网络联合研究中心主任。此外,他还担任过 KDD、SDM 和 ICDM 等国际知名会议的程序委员会主席,创办了 ACM TKDD 学报并任主编。
韩家炜有「数据挖掘第一人」之称,他在数据挖掘数据库和信息网络领域发表论文数百篇,在 Google Scholar 上的被引用量接近 17 万次,h-index 高达 168。他的数据挖掘专著《Data Mining: Concepts and Techniques》(《数据挖掘概念与技术》)成为数据挖掘国内外经典教材。他曾获 IEEE ICDM 2002 杰出贡献奖、2009 年 IEEE 麦克道尔奖(the McDowell Award)等。

俞士纶教授

俞士纶教授现为清华数据科学研究院院长、美国伊利诺伊大学芝加哥分校(UIC)特聘主任教授。他是 ACM 和 IEEE Fellow、原 IEEE TKDE、ACM TKDD 主编。他在谷歌学术上的 H-index 高达 154,论文被引用量接近 11 万次,是名列全球计算机科学领域高引作者前十的华人。
他曾于美国 IBM Watson 研究中心工作多年,创建了世界知名的数据挖掘数据管理部,是 IBM 公司拥有专利最多的人之一。作为国际数据库数据挖掘等领域的先驱之一、国际数据挖掘数据管理领域的顶尖学者,他在专业领域做出了诸多奠基性工作。
裴健教授

裴健教授目前担任 KDD 大会主席。他是加拿大西蒙弗雷泽大学计算机学院教授、ACM 和 IEEE Fellow。他的研究兴趣集中在研究和开发针对新颖的数据密集型应用的高效数据分析技术。他的研究领域包括数据挖掘、web 搜索、信息检索、数据仓库、联机分析处理、数据库系统及其在社会网络和社会媒体、医学信息学、商业智能等领域中的应用。
除了 KDD 创新奖之外,裴健教授还获得过 IEEE ICDM 研究贡献奖(IEEE ICDM Research Contributions Award)。在数据挖掘数据库系统和信息检索方面,裴健是学术界被引用次数最多的作者之一。自 2000 年以来,他在国际顶级学术期刊与会议上发表二百多篇论文,被引用量超过 87000 次。
刘兵教授
刘兵是伊利诺伊大学芝加哥分校杰出教授,ACM、AAAI 和 IEEE Fellow。他的研究兴趣包括情感分析、终身学习、数据挖掘、机器学习和自然语言处理等。
除了创新奖之外,刘兵教授还有两篇论文获得过 KDD 2015 和 2014 的时间检验奖,分别是发表于 2004 年的《Mining and summarizing customer reviews》和发表于 1998 年的《Integrating Classification and Association Rule Mining》。
论文 1:https://www.cs.uic.edu/~liub/publications/kdd04-revSummary.pdf
论文 2:https://dl.acm.org/citation.cfm?id=3000305
刘兵教授曾在 2013 年-2017 年间担任 KDD 主席,在今年的 KDD 大会上担任时间检验奖主席,此外,他还是许多数据挖掘顶会的程序主席,包括 ICDM,CIKM,WSDM,SDM 和 PAKDD 等。
服务奖
SIGKDD 服务奖旨在表彰在数据发现和数据挖掘领域提供杰出服务的个人或团队,包括专业协会和会议的运营、学生和专业人士的教育、资助研发活动等专业服务。
今年的服务奖得主是 IBM Watson Health 杰出工程师 Balaji Krishnapuram,他因在开发机器学习产品改善医疗环境方面的社会贡献而受到表彰。
与上述创新奖相同,服务奖的获奖者也包含多位华人教授,包括:香港科技大学教授杨强(2017)、加州大学洛杉矶分校教授 Wei Wang(2016)、加拿大西蒙弗雷泽大学教授裴健(2015)、新加坡电信公司旗下全资子公司 Dataspark CTO Ying Li(2012)以及美国路易斯安娜大学教授吴信东(2004)等。
获得过 KDD 服务奖的华人教授(从左到右:吴信东、Ying Li、裴健、Wei Wang、杨强

一脉相传的「名师」与「高徒」
从 1998 年正式成为 ACM 的一个特别兴趣小组(SIG)以来,KDD 已经走过了二十多个年头。最早的一批发起人和获奖者已经成为数据挖掘领域的学术领袖,在他们的指导下,一个个后起之秀正迅速成长起来,成为 KDD 大会和数据挖掘领域的新生力量。
今年的 KDD 时间检验奖就颁给了斯坦福大学计算机科学副教授 Jure Leskovec 和他的导师卡内基梅隆大学计算机科学教授 Christos Faloutsos 等人。KDD 时间检验奖旨在表彰过去十年对数据挖掘研究社区产生重大影响的 KDD 大会杰出论文。他们的获奖论文是 2007 年合著的《Cost-effective Outbreak Detection in Networks》。
论文链接:https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
Jure Leskovec(右)和他的导师 Christos Faloutsos(左)。
Jure Leskovec 此前也有一篇论文获得 KDD 时间检验奖。上次的获奖论文是 2005 年发表的《Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations, KDD 2005》,这篇论文曾是当年的 KDD 最佳论文,又在 2016 年拿到了时间检验奖。
论文链接:https://www.cs.cornell.edu/home/kleinber/kdd05-time.pdf
Christos Faloutsos 教授拿过各种大会的多个时间检验奖,包括 SIGCOMM 时间检验奖(2010),两个 KDD 的时间检验奖、VLDB 时间检验奖(1997)、ECML/PKDD 时间检验奖(2015)等。此外,他还在各种会议上拿到过 20 多次最佳论文奖。
除了 Jure Leskovec,Christos Faloutsos 教授指导的学生还有多人拿过 KDD 最佳博士论文奖或最佳博士论文奖亚军,包括:
  • Jimeng Sun(KDD 2008 最佳博士论文奖亚军)

  • Lei Li(KDD 2012 最佳博士论文奖亚军)

  • U Kang(KDD 2013 最佳博士论文奖优秀奖)

  • Danai Koutra(KDD 2016 最佳博士论文奖,她在今年的 KDD 大会上担任 Tutorial Chair)

  • Alex Beutel(KDD 2017 最佳博士论文奖亚军。他也是 KDD 2014 最佳论文奖的得主)

  • Evangelos E. Papalexakis(KDD 2017 最佳博士论文奖亚军)

  • ……

Jure Leskovec 指导的学生也很出色。他在斯坦福大学的学生 Tim Althoff 拿到了今年的最佳博士论文奖。他的获奖论文是《DATA SCIENCE FOR HUMAN WELL-BEING》
论文链接:http://timalthoff.de/docs/althoff-2018-phd_thesis.pdf
Tim Althoff
Tim Althoff 博士毕业于斯坦福大学,目前在华盛顿大学计算机科学和工程学院担任助理教授。他致力于通过改进计算方法来为人类谋福祉,其研究方向结合了数据挖掘、社交网络分析和自然语言处理。除了 KDD 最佳博士论文外,他的论文还拿到过国际医学信息学学会(International Medical Informatics Association)的最佳论文。
除了 Christos 教授的弟子们,KDD 最佳博士论文奖的获奖者中也有不少是韩家炜教授、卡内基梅隆大学邢波教授等大师的学生。
其中,韩家炜教授的学生包括 2011 年最佳博士论文奖亚军 Tianyi Wu、2013 年最佳博士论文奖得主 Yizhou Sun、2015 年的最佳博士论文奖得主 Chi Wang 以及今年最佳博士论文奖亚军张超等;而 2015 年最佳博士论文奖亚军 Qirong Ho、2014 年最佳博士论文奖得主 Gunhee Kim 等则是邢波教授的高徒。
主席团里的大牛
除了各大奖项背后的大牛外,KDD 的主席团里也是卧虎藏龙,他们中也有不少人拿到过 KDD 的各种奖项。
大会联合主席 Vipin Kumar 
Vipin Kumar 是美国明尼苏达大学的教授。他是 IEEE、AAAS、ACM、SIAM Fellow。
他的研究兴趣涵盖数据挖掘、高性能计算及其在气候/生态系统、医疗中的应用。他的研究论文超过 300 篇,合著的书达到十部,其中包含两本教科书:《Introduction to Parallel Computing》和《Introduction to Data Mining》,这两本书在世界范围内广泛传播,已经被翻译成了多种文字。
除了 KDD 2019 之外,Kumar 还是其他许多数据挖掘、大数据、高性能计算领域国际大会的主席或区域主席,包括 2015 年 IEEE 国际大数据大会(IEEE International Conference on Big Data)、2002 年 IEEE 国际数据挖掘大会(IEEE International Conference on Data Mining)、2001 年并行与分布式处理国际研讨会(International Parallel and Distributed Processing Symposium)等。此外,Kumar 还参与创办了 SIAM 数据挖掘国际大会(SIAM International Conference on Data Mining)并担任《统计分析与数据挖掘(Statistical Analysis and Data Mining)》杂志的联合主编。
2012 年,Vipin Kumar 获得 KDD 创新奖。此外,他还获得过 IEEE 计算机学会颁发的高性能计算最高奖项——西德尼·冯巴克奖(Sidney Fernbach Award)(2016)。他的学生 Gaurav Pandey 获得过 2011 年 KDD 最佳博士论文奖。
程序委员会主席(PC Chair)George Karypis
George Karypis 是美国明尼苏达大学教授,因在数据挖掘、推荐系统、高性能计算等领域的创造性贡献而闻名。
他在聚类、图挖掘、模式识别、协同过滤、图划分等领域的许多论文都有很高的引用量。他的 h-index 高达 91,论文被引用量超过 65000 次。此外,他还通过一系列高质量的软件包(如 CLUTO、METIS)将自己的理论应用到实践中,他开发的软件已被纳入 200 多种不同的商业软件系统。
他曾获「IEEE ICDM 研究贡献奖」,该奖项是 IEEE 对数据挖掘领域研究成就的最高认可。此外,他还获得过「IEEE ICDM 10 年最高影响论文奖」以及国际万维网大会颁发的「首尔时间检验奖(Seoul Test of Time Award)」,获奖理由分别是开发了挖掘大型图数据库的计算高效算法和创建探索条目间关系的新型推荐系统。
博士论文奖主席 Yehuda Koren

Yehuda Koren 是谷歌的研究科学家,他曾在雅虎担任高级研究科学家,研究兴趣包括推荐系统、数据挖掘、机器学习、信息可视化等。
他带领的团队在 Netflix Prize 比赛中拿到过两次进步奖(progress award),参与的团队拿到过 2009 年 Netflix Prize 比赛的百万美金大奖。当年比赛的题目是 netflix 电影评分预测,Yehuda Koren 所在团队提出的算法在测试集上的均方根误差为 0.8567,比比赛开始时的最高成绩提高了 10.06%。Yehuda Koren 等人当年做出的算法是基于矩阵分解的算法,优于传统的最近邻基础,已经成为现在几乎所有推荐系统的基础。
算法有关论文:https://datajobs.com/data-science-repo/Recommender-Systems-[Netflix].pdf
2018 年,Yehuda Koren 有关推荐算法的论文拿到了 KDD 的时间检验奖。
论文链接:https://www.cs.rochester.edu/twiki/pub/Main/HarpSeminar/Factorization_Meets_the_Neighborhood-_a_Multifaceted_Collaborative_Filtering_Model.pdf
结语
当然,以上列举的研究者只是 KDD 大会风云人物的冰山一角,还有更多的研究者值得我们关注,欢迎在留言区进行补充。
入门KDD 2019
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
裴健人物

京东集团副总裁,加拿大一级研究讲座教授(大数据科学领域)、加拿大西蒙弗雷泽大学计算科学学院教授、统计与精算学系和健康科学院兼职教授,前华为首席科学家。裴健在数据科学、大数据、数据挖掘和数据库系统等领域,是世界领先的研究学者,擅长为数据密集型应用设计开发创新性的数据业务产品和高效的数据分析技术。他是国际计算机协会(ACM)院士和国际电气电子工程师协会(IEEE)院士,ACM SIGKDD(数据挖掘及知识发现专委会)现任主席。因其在数据挖掘基础、方法和应用方面的杰出贡献,裴健曾获得数据科学领域技术成就最高奖ACM SIGKDD Innovation Award(ACM SIGKDD创新奖)和IEEE ICDM Research Contributions Award(IEEE ICDM研究贡献奖)。

杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任,大数据研究所所长 。他是人工智能研究的国际专家和领军人物,在学术界和工业界做出了杰出的服务和贡献,尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

韩家炜人物

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。

相关技术
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

推荐文章
暂无评论
暂无评论~