魔王、杜伟、小舟编辑

大三本科生获最佳短论文奖,清华大学狂揽信息检索顶会SIGIR 2020多个奖项


第 43 届国际计算机协会信息检索大会(ACM SIGIR)于本月 25 日举行。昨日,大会公布了最佳论文等奖项。来自清华大学的研究人员获得最佳论文荣誉提名奖、最佳短论文奖奖项。

ACM SIGIR 是信息检索领域的顶级学术会议,今年是第 43 届。据统计,SIGIR 2020 会议共收到投稿 1180 篇,接收 340 篇,接收率为 28.8%。其中长论文投稿 555 篇,接收 147 篇,接收率约为 26%;短文投稿 507 篇,接收 152 篇,接收率约为 30%。

SIGIR 2020 论文词云统计。

昨日,大会公布了最佳论文奖、最佳短论文奖、时间检验奖等奖项。

其中,来自柏林工业大学和康奈尔大学的研究者获得最佳论文奖,来自清华大学的研究者获得最佳论文提名奖。此外,最佳短论文奖和最佳短论文荣誉提名奖也分别出自清华团队。

接下来,我们来看获奖论文的具体内容。

最佳论文奖

SIGIR 2020 最佳论文奖由来自柏林工业大学和康奈尔大学的研究者摘得。

  • 论文作者:Marco Morik(柏林工业大学)、Ashudeep Singh(康奈尔大学)、Jessica Hong(康奈尔大学)、Thorsten Joachims(康奈尔大学)

  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401100


排序算法是很多线上平台匹配用户与项目(如新闻、产品、音乐、视频等)的主要途径。在这类双边市场中,不仅用户可以从排序中获益,排序本身也决定了项目提供商(如出版商、卖家、艺术家等)的效益(如曝光度、收益等)。

但人们已经注意到,仅针对用户的效益进行优化(几乎所有 learning-to-rank 算法都是这样做的)对于项目提供商而言是不公平的。

因此,该研究提出一种新型 learning-to-rank 方法,可以显式地对成组项目(如同一个出版商发布的文章)提供 merit-based 公平性保障。

具体而言,该研究提出了一种确保成组项目公平性的学习算法,它还可以同时基于隐式反馈数据学习排序函数。该算法以控制器的形式,集成公平性和效益的无偏估计器,在可用数据增多后可以对二者进行动态适应。

该研究提供了严谨的理论基础和收敛保证,此外实验结果表明,该算法具备高度的实用性和稳健性。

最佳论文荣誉提名奖

此次会议的最佳论文荣誉提名奖由清华大学团队获得,作者为张帆、毛佳昕、刘奕群、谢晓晖、马为之、张敏、马少平。

  • 论文作者:Fan Zhang、Jiaxin Mao、Yiqun Liu、Xiaohui Xie、Weizhi Ma、Min Zhang、Shaoping Ma(均来自清华大学

  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401162


评估指标在信息检索系统批量评估中发挥重要作用。评估指标基于用来描述用户与排序列表交互过程的用户模型,旨在将多个文档的相关性分数与系统效果和用户满意度估计联系起来。

因而,评估指标的有效性包括以下两个层面:

  • 底层用户模型能否准确预测用户行为;

  • 评估指标能否很好地度量用户满意度。


目前已有大量工作涉及不同评估指标的设计、评估和对比,但很少有研究探讨评估指标这两个层面的一致性。

具体而言,该研究想探讨与用户行为数据匹配良好的指标能否在估计用户满意度方面取得同样好的效果。

为此,该研究对比了不同指标在已经优化可以拟合用户行为的情况下,在估计用户满意度方面的性能。该研究在自己收集的数据集和公开可用的用户搜索行为数据集上进行了实验,结果表明能够拟合用户行为的评估指标在估计用户满意度反馈方面也能实现同样好的性能。

该研究还调查了评估指标校准过程的可信度,从而发现调参所需的数据量。该研究为用户行为建模和满意度度量之间的一致性提供了实验支持,同时也为评估指标的调参过程提供了指引。

最佳短论文奖

SIGIR 2020 最佳短论文奖由清华大学和微软的研究人员合作完成。

据北京智源人工智能研究院信息,第一作者于是(Shi Yu)是清华大学计算机系大三本科生。清华大学刘知远Microsoft Research AI 高级研究员熊辰炎为指导老师。

  • 论文作者:Shi Yu(清华大学)、Jiahua Liu(清华大学)、Jingqin Yang(清华大学)、Chenyan Xiong(MSR AI)、Paul Bennett(MSR AI)、Jianfeng Gao(MSR AI)、Zhiyuan Liu(清华大学

  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401323


对话查询重写(conversational query rewriting)的目的是,将简洁的对话查询形式化为可被现有信息检索系统高效处理的完全指定、上下文无关的查询

该研究提出了一种对话查询重写的 few-shot 生成方法。研究者基于规则和监督学习开发出两种方法,以使用大量临时搜索会话生成弱监督数据,并优化 GPT-2 以重写对话查询

在 TREC Conversational Assistance Track 数据集上,该研究的弱监督 GPT-2 重写器仅使用非常少量的手动查询重写就能将准确率在原 SOTA 的基础上提升 12%。在零次学习(zero-shot learning)设置下,重写器仍然能够给出与之前的 SOTA 系统相当的结果。该研究的分析表明:GPT-2 能够高效掌握任务句法并学习捕获上下文依赖关系,即使在涉及到组引用(group reference)和 long-turn dependencies 的困难情况下也是如此。

最佳短论文荣誉提名奖

SIGIR 2020 最佳短论文荣誉提名奖由来自清华大学和中国科学技术大学的研究者合作完,成员来自于清华大学电子系金德鹏教授与李勇副教授的研究团队,论文第一作者和第二作者分别为硕士生常健新(Jianxin Chang)与博士生高宸(Chen Gao)。

此外,据北京智源人工智能研究院信息,中国科学技术大学何向南教授参与了该论文的合作和指导。

  • 论文作者:Jianxin Chang(清华大学)、Chen Gao(清华大学)、Xiangnan He(中国科学技术大学)、Depeng Jin(清华大学)、Yong Li(清华大学

  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401198


捆绑推荐(bundle recommendation)旨在给用户推荐一组可以一起购买的物品。

现有的方案是通过共享模型参数或以多任务学习方式,将用户 - 物品交互建模(user-item interaction modeling)集成到捆绑推荐中。但这种方式无法显式地对物品和物品组合之间的从属关系进行建模,并且在用户选择物品组合时无法探索决策。

该研究针对捆绑推荐提出了一种名为 BGCN(Bundle Graph Convolutional Network,捆绑图卷积网络)的图神经网络模型。BGCN 将用户 - 物品交互、用户 - 物品组合交互和物品组合 - 物品的从属关系统一到一张异构图里。以物品节点为桥梁,用户和物品组合节点之间的图卷积传播让学得的表征能够捕获物品层面的语义。通过基于 hard-negative 采样方法的训练,进一步区分用户对相似物品组合的细粒度偏好。

该研究在两个真实数据集上进行实验,结果表明 BGCN 获得了显著的性能提升,比 SOTA 方法高出 10.77% 到 23.18%。

时间检验奖

本届 ACM SIGIR 时间检验奖颁给了 SIGIR 2009 的一篇论文《Learning to Recommend with Social Trust Ensemble》,论文作者均来自香港中文大学。论文一作 Hao Ma 现任职于 Facebook AI。

  • 论文作者:Hao Ma、Irwin King、Michael R. Lyu(均来自香港中文大学)

  • 论文链接:https://www.cc.gatech.edu/~zha/CSE8801/CF/p203-ma.pdf


为了更准确、更真实地建模推荐系统,该研究提出了一种新型概率因子分析框架,它可以自然地将用户及其信任朋友的喜好融合在一起。在这个框架中,研究人员还创造了一个新术语「社会信任集合(Social Trust Ensemble)」,用来表示社会信任对推荐系统的限制。

复杂性分析表明,由于该方法随着观察值数量呈线性缩放,因而它可以应用到超大规模数据集中。此外,实验结果也表明,该方法的性能优于当时的 SOTA 方法。

基于社会信任集合的推荐模型示意图。

时间检验荣誉提名奖

此次会议还公布了两篇时间检验荣誉提名奖论文,分别为《A user browsing model to predict search engine click data from past observations》和《Selecting good expansion terms for pseudo-relevance feedback》。

论文 1:A User Browsing Model to Predict Search Engine Click Data from Past Observations

  • 论文作者:Georges Dupret、Benjamin Piwowarski(均来自雅虎研究院拉美分部)

  • 论文链接:https://dl.acm.org/doi/abs/10.1145/1390334.1390392


该研究提出了一组有关用户浏览行为的假设,这些假设可以估计一篇文档被看到的概率,从而提供文档相关性的无偏估计。为了训练、测试论文中提出的模型并将其与文献中其他最佳替代方案进行比较,研究者收集了大量真实数据,并进行了广泛的交叉验证实验。结果显示,该模型的性能显著优于以往所有的模型。

研究者从用户浏览行为中获得一些发现,并将其与 Joachims 等人的眼动追踪实验结论进行了对比。结果证实了,用户通常总是在点击文档之后即直接浏览该文档。该研究发现还解释了位于非常相关文档之后的文档更频繁地被点击的原因。

论文 2:Selecting Good Expansion Terms for Pseudo-relevance Feedback

  • 论文作者:Guihong Cao(蒙特利尔大学)、Jian-Yun Nie(蒙特利尔大学)、Jianfeng Gao(美国雷德蒙德微软研究院)、Stephen Robertson(英国剑桥微软研究院)

  • 论文链接:http://www-labs.iro.umontreal.ca/~nie/IFT6255/Cao-sigir-08.pdf


伪相关反馈(pseudo-relevance feedback)假设伪反馈文档中出现最频繁的词语有助于检索。

在本文中,研究者重新检验了这一假设,结果表明这一假设并不成立。传统方法中确定的很多扩展词确实与查询无关,并且对检索不利。该研究还表明,仅根据词语在反馈文档和整个集合中的分布,无法区分好的扩展词和坏的扩展词。因此,研究者提议集成一个词语分类过程(term classification process),以预测扩展词的有效性。这个过程中还可以集成多个其他功能。

在三个 TREC 数据集上的实验表明,利用词语分类可以显著提升检索效率。并且,根据词语对检索效率的可能影响,好的词语应该被直接识别出来。也就是说,该过程使用了监督学习,而不是无监督学习

参考链接:https://mp.weixin.qq.com/s/Q_BAantx6kac_ldmtdDLxQ

Amazon SageMaker 是一项完全托管的服务,可以帮助开发人员和数据科学家快速构建、训练和部署机器学习 模型。SageMaker完全消除了机器学习过程中每个步骤的繁重工作,让开发高质量模型变得更加轻松。

现在,企业开发者可以免费领取1000元服务抵扣券,轻松上手Amazon SageMaker,快速体验5个人工智能应用实例。

理论清华信息检索清华大学SIGIR 2020最佳论文
1
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

排序算法技术

排序算法是将一串数据依照特定排序方式进行排列的算法,最常用到的排序方式是数值顺序以及字典顺序。基本上,排序算法的输出必须遵守下列两个原则:输出结果为递增序列(递增是针对所需的排序顺序而言);输出结果是原输入的一种排列、或是重组。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

多任务学习技术

因子分析技术

因子分析在统计学中是一种常用的降维方法,目的在于用更少的、未观测到的变量(factor)描述观测到的、相关的变量。更准确的来说,因子分析假设在观测到的变量间存在某种相关关系,从观测变量的矩阵内部相关关系出发找到潜变量(latent variables)从而使得潜变量和观测变量之间的关系成立

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

Jianfeng Gao人物

微软研究院人工智能深度学习组合作研究经理、IEEE Fellow,研究兴趣主要为自然语言处理、强化学习等。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

暂无评论
暂无评论~