Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

KDD 2022奖项出炉:华人学者摘创新奖、博士论文奖、新星奖等多个奖项

KDD 2022 已经公布时间检验奖、博士论文奖、创新奖等重磅奖项。

最近几天,一年一度的 KDD 大会正在美国华盛顿特区举办。


本届大会包含 Research 和 Applied Data Science 两个 track。前段时间,大会公布了论文接收结果:Research track 共收到 1695 篇投稿,其中 254 篇被接收,接收率为 14.9%,和去年 Research track(1541 篇投稿,238 篇接收,接收率 15.4%)差别不大;Applied Data Science track 共收到 753 篇投稿,其中 195 篇被接收。

总体来看,大会的接收率为 18.3%(2448 篇投稿,449 篇接收)。

随着会议的进行,各大奖项也开始逐一揭晓,包括时间检验奖、博士论文奖等重磅奖项。其中,斯坦福大学华人博士应智韬获得博士论文奖,清华大学博士裘捷中获得博士论文亚军。华人计算机科学家刘欢教授获得 KDD 创新奖,清华大学助理教授东昱晓获得新星奖。

时间检验奖 - 研究方向

研究方向的时间检验奖旨在表彰过去十年对数据挖掘研究社区产生重大影响且目前仍被引作新研究分支基础的 KDD 大会杰出论文。今年拿到这一奖项的是加州大学河滨分校 Thanawin Rakthanmanon 等人 2012 年的论文《Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping》。



论文地址:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6816304/pdf/nihms-1053769.pdf

大多数时间序列数据挖掘算法都将相似度搜索作为核心子程序,因此相似度搜索所花的时间几乎是所有时间序列数据挖掘算法的瓶颈。将搜索扩展到大型数据集的困难在很大程度上解释了为什么大多数时间序列数据挖掘的学术工作停留在考虑几百万个时间序列对象上,而许多工业和科学领域却有数十亿个时间序列对象等待探索。

在这篇论文中,Thanawin Rakthanmanon 等研究者表明,通过使用四个新的想法的组合,他们可以搜索和挖掘真正大规模的时间序列,这在当时还是首次。他们证明了以下极度反直觉的事实:在大型数据集中,他们可以在 DTW 下精确搜索,比当时的 SOTA 欧几里得距离搜索算法更快。

目前,这篇论文在 Google Scholar 上的引用量是 1050。

时间检验奖 - 应用数据科学方向

袁晶、郑宇、谢幸等人 2012 年的论文《Discovering Regions of Different Functions in a City Using Human Mobility and POls》获得了大会应用数据科学方向的时间检验奖。这几位研究者都来自微软亚洲研究院



论文地址:http://urban-computing.com/pdf/kdd2012_functional20regions.pdf

如标题所述,这篇论文旨在利用人的流动和地图上的兴趣点(POI,一切可以抽象为点的地理对象)来发现城市中的不同功能区(如教育区、商业区),这一目标通过一个名为 DRoF 的框架来完成。

具体来说,研究者根据主要道路,如高速公路和城市快速路,将一个城市划分为互不相连的区域。他们使用基于主题(topic)的推理模型来推断每个区域的功能,该模型将区域视为文档(document),将功能视为主题,将 POI 的类别(如餐馆和购物中心)视为元数据(如作者、从属关系和关键词),将人的流动模式(当人们到达 / 离开一个地区以及人们从哪里来、去到哪里)视为单词。因此,一个区域可以用一个函数分布来表示,而一个函数则以移动模式的分布为特征。然后,他们进一步确定每个功能在不同位置的强度。

DRoF 框架产生的结果有着广泛的应用价值,包括城市规划、企业选址和社会推荐。研究者使用大规模的真实数据集评估了他们的方法,包括北京的两个 POI 数据集(2010 年和 2011 年)和两个 3 个月的 GPS 轨迹数据集(代表人类出行,分别在 2010 年和 2011 年由 12000 多辆北京出租车生成)。结果证明,他们提出的方法优于仅使用 POI 或人的流动性的基线方法。

目前,这篇论文在 Google Scholar 上的引用量是 1198。

博士论文奖

斯坦福大学博士 RexYing(应智韬)的博士论文《Towards Expressive and Scalable Deep Representation Learning for Graphs》拿到了今年的博士论文奖。



论文链接:https://www.proquest.com/openview/43f56ba4da9db357c08883ba102092fa/1?pq-origsite=gscholar&cbl=18750&diss=y

在这篇论文中,应智韬提出了一系列方法,这些方法率先使用图神经网络来解决图表示学习在可解释性、可伸缩性和表达性方面的挑战。论文的第一部分展示了 GraphSAGE 框架,它是一个通用但功能强大的图神经网络框架。第二部分在 GraphSAGE 框架下展示了一系列工作,通过使用层次结构、几何嵌入空间以及 multi-hop 注意力来提高 GNN 的表达能力。最后,他展示了 GNN 在推荐系统异常检测和物理模拟领域的各种应用。

应智韬于 2022 年 1 月获得斯坦福大学计算机系博士学位,师从斯坦福大学计算机学院副教授、图神经网络大牛 Jure Leskovec(拿到过 KDD 最佳论文奖、时间检验奖等奖项)。目前,应智韬已经加入耶鲁大学担任助理教授,继续研究图神经网络、表示学习、几何深度学习等方向。


除了这篇论文之外,还有两篇论文拿到了最佳论文奖亚军,分别是清华大学博士裘捷中的《Graph Representation Learning: Spectral Theory and Self-supervised Learning》和慕尼黑理工大学博士 Daniel Zügner 的《Graph Representation Learning: Spectral Theory and Self-supervised Learning》。其中,裘捷中的导师是唐杰教授,他本人目前在腾讯担任高级研究员,主要研究方向是图数据的算法设计和表示学习。


KDD 创新奖

KDD 创新奖旨在表彰对数据发现与数据挖掘领域做出杰出贡献,并促进理论和商业系统发展的研究者。

2022 年 KDD 创新奖颁给了华人计算机科学家刘欢教授。获奖理由是「他对社交媒体挖掘和数据挖掘特征选择的基础、原则以及应用做出了杰出贡献」。

个人主页:https://www.public.asu.edu/~huanliu/

刘欢教授的研究重点是数据挖掘机器学习和社会计算,致力于设计有效的算法将基础研究转化为实际应用。2018 年,刘欢教授当选 ACM Fellow。

KDD 新星奖

KDD 自 2020 年开始设立新星奖。该奖项根据研究者在博士毕业五年内的工作选出获奖者,旨在促进研究人员规划和建立自己的职业生涯。

今年的 KDD 新星奖颁给了清华大学的东昱晓博士,获奖理由是「他博士毕业五年内在网络数据挖掘和图机器学习领域做出了突出研究」。

个人主页:https://keg.cs.tsinghua.edu.cn/yuxiao/

东昱晓博士现任清华大学计算机系助理教授,主要研究方向为数据挖掘、图机器学习、预训练模型和社交网络。他曾获得 2017 年 ACM SIGKDD 博士论文第三名。

杰出服务奖

KDD 杰出服务奖旨在表彰在知识发现和数据挖掘领域做出杰出专业服务贡献的个人或团体。

今年的杰出服务奖颁给了 IBM TJ Watson 研究中心的杰出研究人员 Charu Aggarwal,旨在表彰他对数据挖掘领域会议和期刊的杰出服务贡献。

个人主页:http://charuaggarwal.net/

Charu Aggarwal 在数据挖掘领域进行了广泛的工作,研究兴趣包括数据流、隐私、不确定数据和社交网络分析。他出版著作 9 部,发表论文 400 余篇,申请或获得专利 80 余项。他曾获得 2015 年 IEEE ICDM 研究贡献奖和 2019 年 ACM SIGKDD 创新奖,这是数据挖掘领域最具影响力的两个奖项。他还是 W. Wallace McDowell 奖的获得者,这是 IEEE 在计算机科学领域颁发的最高奖项。
理论数据挖掘KDD
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

欧几里得距离技术

在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。 使用这个距离,欧氏空间成为度量空间。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~