Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟、小舟报道

清华、人大等机构学者获唯一最佳论文奖,数据挖掘顶会WSDM'22线上召开

在第 15 届 ACM 国际互联网搜索与数据挖掘大会上,来自清华、人大和中科院计算所的研究者获得了最佳论文奖,时间检验奖花落推荐系统。

图片

2 月 21 日至 25 日,第 15 届 ACM 国际互联网搜索与数据挖掘大会(The 15th International Conference on Web Search and Data Mining,WSDM 2022)在线上召开。

作为数据库 / 数据挖掘类的主要会议之一,WSDM 是由 ACM 所属的信息检索(SIGIR)、数据挖掘(SIGKDD)、数据库(SIGMOD)和网络信息处理(SIGWEB)四个专委会协调筹办。该会议主要发表与网络或社交网络搜索和数据挖掘相关的高质量原创论文,重点关注实用的搜索和数据挖掘新模型、算法设计和分析、经济影响以及对准确率和性能的深入实验分析。

本届 WSDM 会议共接收了 790 篇长文投稿,最终录用了 160 篇,录用率约为 20%。近日,WSDM 2022 公布了最佳论文奖和最佳论文奖亚军,其中来自清华、人大和中科院计算所的研究者获得了大会唯一的最佳论文奖。

图片

最佳论文奖

WSDM 2022 的最佳论文奖首次授予了清华大学、人大、中科院计算所等中国科研机构研究者合作完成的论文《Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval》。

图片

  • 论文地址:https://arxiv.org/pdf/2110.05789.pdf

  • 作者及机构:詹靖涛(Jingtao Zhan,清华大学)、毛佳昕(Jiaxin Mao,中国人民大学)、刘奕群(Yiqun Liu,清华大学)、郭嘉丰(Jiafeng Guo,中科院计算技术研究所)、张敏(Min Zhang,清华大学)、马少平(Shaoping Ma,清华大学

密集检索(DR)已经实现了 SOTA 排序效果。然而,大多数现有 DR 模型的效率受到一些限制,特别是存储密集向量需要大量内存成本,并且在向量空间中做最近邻搜索(NNS)非常耗时。因此,该研究提出了一种新型检索模型 RepCONC,通过约束聚类(CONstrained Clustering)学习离散表征。 

RepCONC 联合训练双编码器和乘积量化(PQ)方法来学习离散文档表征,并实现具有紧凑索引的快速近似 NNS。它将量化建模为一个受约束的聚类过程,这要求文档嵌入围绕量化质心均匀聚类,并支持量化方法和双编码器的端到端优化。

该研究从理论上证明了 RepCONC 中均匀聚类约束的重要性,并通过将其简化为最优传输问题的一个实例,为约束聚类导出了一个有效的近似解。除了约束聚类,RepCONC 进一步采用基于向量的倒排文件系统 (IVF) 来支持 CPU 上的高效向量搜索。对两个流行的 ad-hoc 检索基准进行的大量实验表明,在多种压缩比设置下,RepCONC 比其他向量量化基准实现了更好的排序效果,它在检索效率、记忆效率和时间效率方面也大大优于现有的各种检索模型。

最佳论文奖亚军

WSDM 2022 共有 3 篇论文获得最佳论文奖亚军,分别如下

论文 1:Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model

图片

  • 论文地址:https://arxiv.org/pdf/2202.01562.pdf

  • 作者及机构:Haruka Kiyohara(东京工业大学)、Yuta Saito(康奈尔大学)、Tatsuya Matsuhiro(雅虎日本公司)、Nobuyuki Shimizu(耶鲁大学)、Nobuyuki Shimizu(雅虎日本公司)、Yasuo Yamamoto(雅虎日本公司)

论文 2:Evaluating Mixed-initiative Conversational Search Systems via User Simulation

图片

  • 论文地址:https://dl.acm.org/doi/10.1145/3488560.3498440

  • 作者及机构:Ivan Sekulic(USI,卢加诺大学)、Mohammad Aliannejadi(阿姆斯特丹大学)、Fabio Crestani(USI)

论文 3:The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?

图片

  • 论文地址:https://dl.acm.org/doi/10.1145/3488560.3498519

  • 作者及机构:Jin Yao Chin(南洋理工大学)、Yile Chen(南洋理工大学)、Gao Cong(南洋理工大学)

时间检验奖

本届会议的时间检验奖(Test of Time Award)授予了在 WSDM 2011 上发表的论文《Recommender Systems with Social Regularization》。

图片

  • 论文地址:https://dennyzhou.github.io/papers/RSR.pdf

  • 作者:Hao Ma、Dengyong Zhou、Chao Liu、Michael R. Lyu、Irwin King

  • 机构:香港中文大学、微软研究院

评奖委员会评语:

推荐系统已被证明是学界和业界的一个经久不衰的研究课题。2011 年关于推荐系统的这篇论文因其重要性以及对社区的影响而被评奖委员会授予时间检验奖。该论文着眼于信任和推荐之间的深层关系,认识到用户不一定与他们信任的每个人都有相似的品味,但这种信任对于推荐至关重要。研究者通过为不同的推荐任务确定最合适的社交关系,有助于确立将社交信息纳入推荐系统的价值。因此,这篇论文具有很高的影响力,并在 WSDM 时间检验奖的所有提名论文中被引用次数最多。同时,论文也显示了对推荐中信任和透明度的重要性的远见,这已成为最近的一个重要课题。 

完整接收论文列表:https://www.wsdm-conference.org/2022/accepted-papers/
参考链接:https://www.wsdm-conference.org/2022/
理论中科院计算所中国人民大学清华大学最佳论文奖WSDM 2022
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

最近邻搜索技术

最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”(Closest point search),是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点。很多情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~