杜克大学陈怡然组获奖,数据挖掘顶会KDD 2020全部奖项公布

国际数据挖掘顶会 KDD 2020 刚刚公布了最佳论文、最佳学生论文等多个奖项。最佳论文奖由谷歌的研究者摘得,最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊摘得。此外,汤继良、盛胜利、唐杰等华人学者在本届 SIGKDD 大会上也斩获了多项大奖。

第 26 届 ACM SIGKDD 知识发现和数据挖掘会议(KDD)将于太平洋标准时间 8 月 23 日 - 27 日以虚拟方式召开。刚刚,最佳论文、最佳学生论文等多个奖项悉数出炉。

KDD 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。尽管本次会议在线上举办,但仍然提供与往年相同的活动内容,包括主题演讲、专题小组、特邀报告、精选研究、应用数据科学论文、信息实践教程和 workshop。

KDD 2020 联席主席 Rajesh K. Gupta 表示:「最初我们希望会议至少一部分是『面对面』的,但组委会最终决定,对于我们这个社区来说,以完全虚拟的方式举行会议是最安全的选择。」

KDD 2020 联席主席、南加州大学计算机科学系副教授 Yan Liu 表示:「在过去的三十年里,数据科学实现了爆炸式的增长,正在重塑着众多不同的学科。KDD 2020 的应用数据科学特邀演讲嘉宾就是一个例子,今年我们邀请到了 18 位业界领先的专家,他们来自西门子、微软、Facebook、谷歌、亚马逊和优步等顶尖企业。」

本次会议将包含 4 场主题演讲、18 场应用数据科学特邀报告,217 篇接收论文将在包括口头报告、workshop、tutorial 在内的共 43 场活动中分别进行展示。

4 场主题演讲的内容分别是《Explanations that Matter through Meta-Provenance》、《AI for Intelligent Financial Services: Examples and Discussion》、《A Look at State-Space Multi-Taper Time-Frequency Analysis》、《Computational Epidemiology at the Time of COVID-19》。

最佳论文奖

今年的最佳论文奖由来自谷歌的研究者 Walid Krichene、Steffen Rendle 摘得,获奖论文是《On Sampled Metrics for Item Recommendation》。

项目推荐(item recommendation)任务需要根据给定的条件对大型项目目录进行排序。项目推荐算法是使用依赖于相关项目位置的排名度量指标来评估的。为了加快度量指标的计算,近来的一些研究经常使用抽样的度量指标(sampled metrics),仅对较小的一组随机项和相关项进行排序。Google 研究小组对这些抽样指标进行了更详细的研究,结果表明它们与其 exact version 不一致。也就是说,它们没有保持 relative statements。


  • 论文链接:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf

  • 展示页面:https://www.kdd.org/kdd2020/accepted-papers/view/on-sampled-metrics-for-item-recommendation



最佳学生论文奖

最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北京航空航天大学的段逸骁、杨建磊摘得,获奖论文是《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》。


  • 论文链接:https://arxiv.org/abs/2005.11480 

  • 展示页面:https://www.kdd.org/kdd2020/accepted-papers/view/tiprdc-task-independent-privacy-respecting-data-crowdsourcing-framework-for


这篇论文的亮点在于:杜克大学的研究小组提出了一个任务独立、尊重隐私的数据众包框架——TIPRDC。它带有匿名中间表征。该框架的目标是学习一个能够向中间表征隐藏隐私信息的特征提取器,同时最大限度地保留嵌入在原始数据中的原始信息,以供数据收集器完成未知的学习任务。


论文第一作者 Ang Li 是杜克大学电子和计算机工程系的一名在读博士,导师为陈怡然和 Hai "Helen" Li 教授。Ang Li 的主要研究方向是移动和 IoT 平台上的深度学习系统。在进入杜克大学之前,他曾在 2018 年获得阿肯色大学计算机科学博士学位,2013 年获得北京大学软件工程硕士学位,2010 年获得河南大学计算机科学本科学位。

他的导师陈怡然教授是 IEEE Fellow,本科和硕士就读于清华大学,博士毕业于美国普渡大学,现任杜克大学电子与计算机工程系教授、杜克大学计算进化智能中心主任,同时也是美国 NSF 新型可持续智能计算中心主任。

最佳论文亚军

来自弗吉尼亚大学的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和来自纽约州立大学布法罗分校的 Liuyi Yao 获得了最佳论文的亚军,获奖论文是《Malicious Attacks against Deep Reinforcement Learning Interpretations》。

这篇论文将深度学习强化学习结合(DRL),并证明了其在众多序列决策问题中建模 dynamics 的能力。为了提高模型的透明度,已经有研究提出了针对 DRL 的各种解释方法。但是,这些 DRL 解释方法隐式地假定它们是在可靠和安全的环境中执行的,但在实际应用中并非如此。弗吉尼亚大学的研究团队调查了一些 DRL 解释方法在恶意环境中的漏洞。具体而言,他们提出了第一个针对 DRL 解释的对抗性攻击的研究,提出了一个优化框架来解决所研究的对抗性攻击问题。

创新奖

创新奖也是 KDD 大会颇具分量的奖项,旨在表彰在数据发现和数据挖掘领域做出杰出技术贡献的研究者,这些贡献对促进理论和 / 或商业系统的发展产生了持久的影响。它是数据发现和数据挖掘领域的最高技术奖项,获奖者通常为某一领域的学术领袖。伊利诺伊大学香槟分校计算机系教授韩家炜、伊利诺伊大学芝加哥分校杰出教授刘兵、加拿大西蒙弗雷泽大学教授裴健清华大学数据科学研究院院长俞士纶等华人学者都获得过此奖项。


获得 KDD 2020 创新奖的是康奈尔大学计算机科学与信息科学教授 Thorsten Joachims,获奖理由是「他在机器学习方面的贡献广受认可,包括信息检索中的人类偏见、支持向量机、结构化输出预测等方面的重要研究」

此外,Thorsten Joachims 以往参与的研究曾获得过 9 项最佳论文奖和 4 项时间检验奖,最近的奖项为 SIGIR 2020 最佳论文《Controlling Fairness and Bias in Dynamic Learning-to-Rank》。

服务奖

SIGKDD 服务奖旨在表彰在数据发现和数据挖掘领域提供杰出服务的个人或团队,包括专业协会和会议的运营、学生和专业人士的教育、资助研发活动等专业服务。


本次服务奖的获得者为淡马锡人工智能战略和解决方案负责人 Michael Zeller,他在 KDD 执行委员会工作了八年,在多个 KDD 会议的策划中发挥了重要作用,促进了研究机构与行业组织之间形成牢固的伙伴关系,并特别强调人工智能的应用,这也是知识发现领域持续取得成功的关键。

学位论文奖

ACM SIGKDD 学位论文奖旨在表彰在数据科学机器学习数据挖掘领域做出的杰出研究生工作。今年的学位论文奖颁给了加州大学伯克利分校计算机科学新晋助理教授 Rediet Abebe 的博士论文——《Designing Algorithms for Social Good(公益算法的设计)》。

Abebe 是首位进入哈佛学会(Harvard Society of Fellows)的计算机科学女性科学家,还参与创立了 Mechanism Design for Social Good(MDSG)。加州大学圣地亚哥分校计算机科学助理教授 Jingbo Shang 凭借其《Constructing and Mining Heterogeneous Information Networks from Massive Text》获得学位论文奖的第二名。


新星奖

Rising Star Award(新星奖)是 ACM SIGKDD 今年新设的一个奖项,旨在奖励博士毕业五年内取得突出成果的研究者。获得今年新星奖的有两位研究者:密歇根大学计算机科学与工程 Morris Wellman 助理教授 Danai Koutra 和密歇根州立大学计算机科学与工程助理教授汤继良。

左:汤继良;右:Danai Koutra。

Danai Koutra 在大规模数据挖掘方面的研究集中于有原则的、可解释的、可扩展的网络总结和多网络分析方法。汤继良的著名工作主要集中于表征学习领域,特别是图网络及其在网络和社交媒体领域的应用。

汤继良本科、硕士毕业于北京理工大学,之后前往美国亚利桑那州立大学攻读计算机博士,师从 IEEE Fellow、ACM Fellow 刘欢教授。2016 年,汤继良获 SIGKDD 最佳应用论文奖。目前,他的 Google Scholar 被引量已经超过 12000 次。



时间检验研究奖

SIGKDD 时间检验奖旨在表彰过去十年对数据挖掘研究社区产生重大影响且目前仍被引作新研究分支基础的 KDD 大会杰出论文。今年的时间检验研究奖(Test of Time Award for Research)颁给了 Victor S. Sheng(盛胜利)、Foster Provost 和 Panagiotis Ipeirotis 等人合著的《Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers》(2008)。该论文讨论了标签不完善时重复获取数据项标签的问题。


论文链接:https://archive.nyu.edu/bitstream/2451/25882/4/kdd2008.pdf

Victor S. Sheng 本科毕业于苏州大学,之后在加拿大西安大略大学获博士学位。他现在是德克萨斯理工大学(Texas Tech University)计算机系副教授,主要研究领域为数据挖掘机器学习、大数据、深度学习人工智能、数据安全和决策支持及其在商业、医疗诊断、软件工程等领域的应用。目前,Victor S. Sheng 在 Google Scholar 上的被引量已经接近 6000。



时间检验应用科学奖

SIGKDD 时间检验应用科学奖(Test of Time Award for Applied Science)也是今年新设立的奖项,旨在表彰在现实世界应用中产生真正影响的数据科学研究工作。今年的时间检验应用科学奖颁给了唐杰李涓子等人合著的《ArnetMiner: Extraction and Mining of Academic Social Networks》(2008)。

唐杰清华大学计算机科学与技术系长聘教授,研究兴趣包括社会网络分析数据挖掘机器学习知识图谱等。2006 年,他主持研发了研究者社会网络挖掘系统 AMiner。今年年初,他又参与创办了一个 AI 新期刊——《ai open》并担任主编,专注于 AI 的开放共享,此举得到了刘知远、刘群、马少平等多位国内研究者的支持。



最后,如果你想了解更多的 KDD 2020 接收论文,可以参考这个官方列表:https://www.kdd.org/kdd2020/accepted-papers,每篇论文几乎都有对应的视频介绍。

扩展阅读:名师出高徒,华人领风骚,KDD 风云人物盘点 

理论数据挖掘杜克大学KDD数据科学最佳论文KDD 2020
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
裴健人物

京东集团副总裁,加拿大一级研究讲座教授(大数据科学领域)、加拿大西蒙弗雷泽大学计算科学学院教授、统计与精算学系和健康科学院兼职教授,前华为首席科学家。裴健在数据科学、大数据、数据挖掘和数据库系统等领域,是世界领先的研究学者,擅长为数据密集型应用设计开发创新性的数据业务产品和高效的数据分析技术。他是国际计算机协会(ACM)院士和国际电气电子工程师协会(IEEE)院士,ACM SIGKDD(数据挖掘及知识发现专委会)现任主席。因其在数据挖掘基础、方法和应用方面的杰出贡献,裴健曾获得数据科学领域技术成就最高奖ACM SIGKDD Innovation Award(ACM SIGKDD创新奖)和IEEE ICDM Research Contributions Award(IEEE ICDM研究贡献奖)。

唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

韩家炜人物

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

社会网络分析技术

社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法,近年来,该方法在职业流动、城市化对个体幸福的影响、世界政治和经济体系、国际贸易等领域广泛应用,并发挥了重要作用。社会网络分析是社会学领域比较成熟的分析方法,社会学家们利用它可以比较得心应手地来解释一些社会学问题。许多学科的专家如经济学、管理学等领域的学者们在新经济时代——知识经济时代,面临许多挑战时,开始考虑借鉴其他学科的研究方法,社会网络分析就是其中的一种。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

李涓子人物

李涓子,博士,清华大学长聘教授,博士生导师。中国中文信息学会语言与知识计算专委会主任。研究方向为知识工程、语义Web和文本挖掘。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

北京理工大学机构

北京理工大学1940年诞生于延安,是中国共产党创办的第一所理工科大学,是新中国成立以来国家历批次重点建设的高校,首批进入国家“211工程”和“985工程”,首批进入“世界一流大学”建设高校A类行列。

http://www.bit.edu.cn/
相关技术
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
暂无评论
暂无评论~