信息检索顶会SIGIR 2017奖项公布:微软最佳论文、清华最佳学生论文

By 机器之心2017年8月10日 10:53

8 月 7 日,信息检索领域的顶级学术会议 SIGIR 2017 在日本东京开幕。今日,大会公布了包括最佳论文、最佳学生论文在内的 4 个奖项,微软获得最佳论文奖、清华大学获得最佳学生论文奖。

 

ACM SIGIR 是国际计算机学会主办的信息检索领域最重要的学术会议,今年已是第四十届。据统计,SIGIR 2017 共收到稿件 760 篇(其中长文投稿 362 篇,长文录用仅为 78 篇),会议参会人数达到 900 人以上。


今日,SIGIR 2017 公布最佳论文奖、最佳学生论文奖、最佳短论文奖、Test of Time Award 四大奖项,获奖论文如下:






以下为机器之心对四篇获奖论文的摘要介绍。每个奖项之后还附上了该奖项的 Honourable Mentions 论文。


SIGIR 2017 最佳论文

论文:BitFunnel: Revisiting Signatures for Search



地址:http://dl.acm.org/citation.cfm?doid=3077136.3080789


摘要:自上世纪 90 年代中期以来,人们普遍认为签名文件要比用于文本索引的倒排文件(inverted files)更差。近年来,Bing 搜索引擎已经开发和部署了一个基于位片签名(bit-sliced signatures)的索引;这个被称为 BitFunnel 的索引代替了现有的基于倒排索引的生产系统。远离倒排索引的背后驱动因素是操作成本的节省。该论文描述了云计算领域的算法创新和改变,这促使我们重新思考并最终实现了曾经被认为无用的技术。BitFunnel 算法直接解决了位片块签名中的 4 个根本局限。同时,我们在集群上的算法映射为避免与签名相关的其他成本提供了机遇。我们证明这些创新相比于经典的位片签名有着显著的效率提升,并对 BitFunnel 与 Partitioned Elias-Fano Indexes、MG4J 和 Lucene 作了对比。


Honourable Mentions


对该论文的详细解读,参见:学界 | SIGIR2017 满分论文:IRGAN



SIGIR 2017 最佳学生论文


论文:Evaluating Web Search with a Bejeweled Player Model



地址:http://dl.acm.org/citation.cfm?doid=3077136.3080841


摘要:Web 搜索评估指标的设计与用户的交互过程如何建模相关度很高。每个行为模型都会导致搜索评估表现的不同。在这些模型中和用户行为假设背后,用户结束搜索会话是首要关注点之一,因为它与收益和成本估算相关。目前的指标设计通常使用简单的方法来选择停止时间点:1)收益的上限(如 RR、AP);2)成本的上限(如 Precision@N、DCG@N)。然而,在很多实际搜索会话(如探索性搜索)中,停止标准会比这些简单形式复杂得多。我们发现停止条件随搜索任务而变化,通常受到收益与成本因素的双重影响。受流行游戏《宝石迷阵》的启发,我们提出了宝石迷阵玩家模型(Bejeweled Player Model,BPM)来模拟用户的搜索交互过程并评估其搜索性能。


在 BPM 中,当用户找到充足的有用信息或者没有耐心继续时则停止。考虑到这一假设,我们为收益和成本提出了一种基于上限的新评估框架。我们展示了如何从框架中推导出一个新指标,并证明它可被用于修改传统的指标,比如贴现累计收益(DCG)、预期互惠排序(ERR)和平均精度(AP)。为了展示该框架的有效性,我们从用户满意度与基于数据集(该数据集搜集用户明显满意的反馈和评审员的关联判断)的指标之间的关联性方面将其与现有的大量框架进行了对比。结果表明该框架与用户满意度反馈的关联性更好。


SIGIR 2017 最佳短论文奖

论文:LiveMaps – Converting Map Images into Interactive Maps



地址:http://dl.acm.org/citation.cfm?doid=3077136.3080673


摘要:图像搜索在网页搜索引擎中是十分流行的应用。在图像搜索引擎中提交位置相关的请求时经常返回结果最好的几张地图。一般情况下,点击这样的图片会在新的浏览页中打开它或将用户导向包含这张图像的网页。然而,在交互网页地图上寻找这样的内容区域是一个手动过程。在本论文中,我们描述了一种新型系统——LiveMaps,它在给定地图下能够分析和检索合适的地图视口(map viewport),并且允许用户直接打开链接到兴趣焦点的交互式地图中。


LiveMaps 的处理过程分为几个阶段。它首先检查输入的图像是不是代表一张地图。如果是的话,那么系统将尝试识别该地图所代表的地理区域。在这一过程中,我们使用从图像抽取的文本和视觉信息。最后,我们构建了一个交互式地图对象(interactive map object),它能获取从图像推断出的地理区域。在高级别的定位图像数据集上的评估结果表明我们的系统能构建出非常精确的地图表征,它同样能实现非常好的覆盖范围。


Honourable Mention 


SIGIR 2017 Test of Time Award 

论文:Personalizing search via automated analysis of interests and activities


地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/sigir05.pdf


摘要:我们构想和研究了一种搜索算法,这种算法考虑了用户之前与内容之间的大量互动,以个性化用户当前的网页搜索。我们没有依赖不切实际的假设(人们在搜索时能够准确地确定目标),而是探究利用包含用户兴趣这一隐含信息的技术。这些信息可用于在相关反馈框架(relevance feedback framework)内对网页搜索结果进行重新排序。我们利用与搜索相关的信息(如之前的查询和访问过的网页)和用户的其他相关信息(如用户阅读和创建的文档和邮件)构建大量符合用户兴趣的模型。我们的研究显示用户的大量表征和语料对个性化尤为重要,而逼近这些表征、为个性化搜索提供高效的客户端算法也是可能的。我们证明这种个性化算法可以大幅改善当前的网页搜索。


Honorable Mentions




声明:本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。