ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。
今年的 KDD 大会是第 29 届,于 8 月 6 日 - 10 日在美国加州长滩举办。大会包含研究方向(Research )和应用数据科学方向 (Applied Data Science,ADS)两个 track。随着会议的进行,各大奖项也开始逐一揭晓。其中来自香港中文大学、香港科技大学(广州)、东南大学、同济大学的研究者获得了研究方向最佳论文奖;来自谷歌的研究者获得了应用数据科学方向最佳论文奖;斯坦福大学(于今年 1 月获得学位)博士 Weihua Hu 获得杰出博士论文奖;创新奖颁给了斯坦福大学计算机科学学院教授 Jure Leskovec;不列颠哥伦比亚大学的四位研究者获得了本次大会的时间检验奖。来自香港中文大学的孙相国博士、程鸿教授、香港科技大学(广州)的李佳教授、东南大学的刘波教授以及同济大学的关佶红教授获得了最佳论文奖。获奖论文为《All in One: Multi-task Prompting for Graph Neural Networks》。论文地址:https://arxiv.org/pdf/2307.01504.pdf论文介绍:最近,预训练和微调范式已成为许多图任务的标准工作流程,因为这些方法可以利用通用的图知识来缓解每个应用中图注释的缺乏。然而,具有节点级、边缘级和图级的图任务千差万别,使得预训练的前提往往与多个任务不兼容。这种差距甚至可能导致对特定应用程序的「负迁移」,从而使得效果不佳。受到自然语言处理(NLP)中 prompt 学习的启发,因而,本文研究了在图领域中关于 prompting 的主题,旨在弥合预训练模型与各种图任务之间的差距。本文提出了一种新颖的用于图模型的多任务 prompting 方法。具体来说,该研究首先通过 prompt token、token 结构和嵌入模式统一了图 prompt 和语言 prompt 的格式。通过这种方式,可以将 NLP 中的 prompting 思想无缝地引入到图领域。然后,为了进一步缩小各种图任务与最先进的预训练策略之间的差距,该研究进一步研究了各种图应用的任务空间,并将下游问题重新表述为图级任务。随后,他们引入元学习,以有效地学习更好的图多任务 prompt 初始化,从而使 prompting 框架在不同任务之间更可靠且更通用。本文还进行了大量实验来证明所提方法的优越性。图 1 为微调、预训练以及 prompting 流程;图 2 为受 NLP 领域中 prompt 启发,得到的图 prompt:SIGKDD 2023 应用数据科学方向最佳论文奖颁给了谷歌的研究者。其中华人学者包括高级软件工程师 Jiaxi Tang 、软件工程师 Li Wei 、高级软件工程师 Xinyang Yi、 软件工程高级总监 Lichan Hong 以及杰出科学家 Ed H. Chi 。图源:https://twitter.com/madiator/status/1688716588491608064论文地址:https://arxiv.org/pdf/2302.09178.pdf论文介绍:推荐系统在许多内容平台中扮演着重要的角色。虽然大多数关于推荐系统的研究都致力于设计更好的模型来改善用户体验,但研究发现让这些模型训练更加稳定的研究严重不足。随着推荐模型变得越来越庞大和复杂,因而更容易受到训练不稳定性问题的影响,例如损失发散,这可能使模型无法使用,浪费大量资源,并阻碍模型的发展。在本文中,研究者指出了导致模型训练不稳定的一些特性,并对其原因进行了推测。更进一步的,基于对训练不稳定点附近训练动态的观察,研究者假设了现有解决方案失败的原因,并提出了一种新的算法来减轻现有解决方案的局限性。研究者在数据集上进行的实验表明,与几种常用的基准方法相比,本文所提出的算法可以显著提高模型的训练稳定性,同时不损害收敛性。本次获得最佳学生论文奖的是来自蒙纳士大学、澳大利亚国立大学等机构的研究者。论文地址:https://arxiv.org/pdf/2209.13446.pdf论文介绍:本文提出了一个基于特征的学习框架,可有效处理反事实约束,并为有限的私有解释模型做出了贡献。本文在生成行动可行性和合理性的多样性反事实方面,展示了所提方法的灵活性和有效性。KDD 2023 杰出博士论文奖授予了斯坦福大学(于今年 1 月获得学位)博士 Weihua Hu 的论文《On the Predictive Power of Graph Neural Networks》。我们先简单介绍一下 Weihua Hu。他先后于 2016 年和 2018 年获得了东京大学的数学工程学士学位和计算机科学硕士学位。之后进入斯坦福大学攻读计算机科学博士学位,其导师为 Jure Leskovec(也是 KDD 2023 创新奖获得者)。博士期间,Weihua Hu 创建了图结构数据的机器学习理论、方法和基准,旨在改进现实世界的多样化应用,比如推荐系统、药物或材料发现、天气预测。他还乐于应用(图)机器学习来解决现实世界有趣和重要的问题。目前,Weihua Hu 在初创公司 Kumo.ai 工作,致力于将 GNN 投入生产,尤其重视使用 GNN 来回答现代关系数据库上各种各样的未来预测查询。个人主页:https://weihua916.github.io/Weihua Hu 的博士论文旨在通过理解、改进 GNN 的预测能力并进行基准测试,来构建强大的预测性 GNN。这里的预测能力是 GNN 对图做出准确预测的能力。论文分以下三个部分展开。第一部分开发了一个用于理解 GNN 预测能力的理论框架,尤其关注表达能力,观察 GNN 是否可以在图上表达所需的函数。第二部分是在有了用于设计表达性 GNN 模型的框架之后, 进一步提升模型在未见过或未标注数据上的预测能力,也即是提升 GNN 的泛化性能。第三部分创建一个新的图基准数据集来解决现有基准的问题,并让社区参与进来共同提升 GNN 的预测能力。论文详细内容请参阅:https://searchworks.stanford.edu/view/14423818今年还评选出了两篇杰出博士论文奖(亚军),第一篇是《Characterization and detection of disinformation spreading in online social networks》,作者为 Francesco Pierri,他现在是米兰理工大学的一名助理教授。论文地址:https://www.politesi.polimi.it/handle/10589/188756另一篇获此奖项的论文题目是《Efficient and Secure Message Passing forMachine Learning》,作者是北卡罗来纳州立大学助理教授 Xiaorui Liu。论文地址:https://www.proquest.com/openview/38629046ef91d5deea1a63265175abc0/1?pq-origsite=gscholar&cbl=18750&diss=yKDD 创新奖旨在表彰对数据发现与数据挖掘领域做出杰出贡献,并促进理论和商业系统发展的研究者。KDD 2023 创新奖颁给了图网络领域的大牛、斯坦福大学计算机科学学院教授 Jure Leskovec。他也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。此次获奖是为表彰他对图挖掘、网络和应用机器学习的根本性和里程碑式贡献。Jure Leskovec 的研究领域为大规模互连系统的应用机器学习,并专注于为所有尺度的系统建模复杂、标签丰富的关系结构、图和网络,涉及领域可以从细胞中的蛋白质相互作用到社会中的人类交互。研究应用则包括了常识推理、推荐系统、计算社会科学以及以药物发现为重点的计算生物学。迄今为止,Jure Leskovec 参与的论文在谷歌学术上的引用次数将近 10 万。谷歌学术主页:https://cs.stanford.edu/people/jure/机器之心此前报道过的与 Jure Leskovec 相关的文章:来自不列颠哥伦比亚大学的四位研究者获得了本次大会的时间检验奖。这篇论文发表于 2012 年,在 Google Scholar 上的引用量是 1792。论文地址:https://arxiv.org/pdf/1208.3719.pdf论文介绍:目前,研究者已经开发出了许多不同的机器学习算法,考虑到每个算法的超参数非常多,因而会出现很多可替代方案。本文的做法是选择学习算法的同时并设置其超参数,从而超越了先前只解决单个问题的研究。本文考虑了一系列广泛的特征选择技术,以及 WEKA 中实现的所有分类方法,涵盖 2 种集成方法、10 种元方法、27 种基准分类器,以及每个分类器的超参数设置。在 UCI 中的 21 个常用数据集、KDD Cup 09、MNIST 数据集变体和 CIFAR-10 数据集的每个数据集上,该研究展示了本文方法比使用标准的选择 / 超参数优化方法要好得多。该研究希望他们所提出的方法能够帮助非专业用户更有效地识别适用于其应用的机器学习算法和超参数设置,从而实现性能改进。另一篇时间检验奖颁给了论文《Ad Click Prediction: a View from the Trenches》,来自谷歌,被引用次数为 1030。
论文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41159.pdf
论文介绍:预测广告点击率(CTR)是一个与数十亿美元规模的在线广告行业密切相关的大规模学习问题。本文在一个部署的CTR预测系统环境中,展示了一些选定的案例研究和主题,这些案例研究和主题源自最近的实验。
最后,KDD 还颁布了杰出服务奖,旨在表彰在知识发现和数据挖掘领域做出杰出专业服务贡献的个人或团体。本届大会颁给了熊辉(Hui Xiong)教授。
参考链接:https://kdd.org/kdd2023/awards/