顶会抄顶会:SIGIR 2019论文被爆抄袭,部分内容宛如复制粘贴

荷兰、瑞士两位学者(其中一位是教授)的SIGIR 2019论文被发现抄袭,部分内容与RecSys 2018一篇论文高度相似,只有个别用词出现改动。

今日,有Reddit网友爆出,入选SIGIR 2019的论文《Adversarial Training for Review-Based Recommendations》与RecSys 2018上的一篇论文《Why I like it: Multi-task Learning for Recommendation and Explanation》惊人相似。

起初,发帖者以为这仅仅是一个巧合,maybe 这只是因为两组研究人员提出了同样的问题、开展了相同的研究,然后,提出了相同的解决方案。

但仔细阅读完两篇论文后,ta 发现事情并不简单。

被质疑抄袭他人论文的两位作者分别来自荷兰和瑞士的高校。其中,Dimitrios Rafailidis 是荷兰马斯特里赫特大学的助理教授,Fabio Crestani 则来自瑞士提契诺大学。两个人是老搭档,合著过很多篇论文。Fabio Crestani 在 Google Scholar 上的被引用量甚至高达 5936。

他们的这篇论文被 SIGIR 会议接收。SIGIR 会议的全称是「Special Interest Group on Information Retrieval」,是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,在《中国计算机学会(CCF)推荐国际学术会议》列表中属于 A 类会议。

而这次抄袭事件的「原版」论文来自推荐系统顶会 ACM RecSys 2018,其中一作 Yichao Lu 是华人,目前在 AI 公司 Lyaer 6 AI 担任机器学习研究科学家,本科就读于复旦大学,硕士就读于多伦多大学。另两位作者 Ruihai Dong 与 Barry Smyth 则来自都柏林大学。

说回来,SIGIR 2019 那篇论文中的模型像是从 RecSys 2018 那篇中复制过来的一样,让我们来对比一下:

首先,这两篇论文都在矩阵分解框架的基础上使用了对抗序列到序列的学习模型。其次,在生成器和鉴别器的部分,两篇论文都使用了 GRU 生成器和 CNN 鉴别器。优化方法也相同,都是两个部分之前交替优化。最后,两篇论文所使用的符号和公式也极其相似……

Fine,鉴于「对抗训练」是一种当下很流行的操作,所以不能因此下结论。但是,SIGIR 2019 论文和 RecSys 2018 两篇论文的文字重合之处证明了一切:

看这两个句子,一字不差:

SIGIR 2019 论文第 1 部分。

RecSys 2018 论文第 2 部分。

在论文写作中,很难想象一个人会写出与他人一字不差的语句,除非是抄袭的。

再来一个例子:

SIGIR 2019 论文 2.1 节:

「解码器利用了一个单一的 GRU,迭代地逐词生成评论。具体来说,在时间步 t 上,GRU 首先将之前时间步的输出表征 z_ut-1 映射为 k 维向量 y_ut-1」,并将其与连接在一起,以生成一个新的向量 y_ut。最后,将 y_ut 输入 GRU,得到隐藏表征 h_t。接下来,将 h_t 与输出投影矩阵相乘,并通过 softmax 遍历文档词汇表中的所有单词来表示每个单词的概率。时间步 t 上的输出词 z_ut 从 softmax 给出的多项式分布中采样得到。」

RecSys 2018 论文 3.1.1 节:

「用户评论解码器利用了一个单独的 GRU,迭代地逐词生成评论。在时间步 t 上,解码器 GRU 首先将前一个时间步上的输出词 y_i, t-1 嵌入到相应的词向量,然后将其与用户文本特征向量连接在一起。连接后的向量被用作解码器 GRU 的输入,以获取隐藏激活 h_t。接下来,将隐藏激活与输出投影矩阵相乘,并通过 softmax 遍历文档词汇表中的所有单词来表示当前语境的每个单词的概率。时间步 t 上的输出词 y_i, t 从从 softmax 给出的多项式分布中采样得到」。

在这个例子中,SIGIR 2019 论文的作者替换了论文中的个别短语,以使两篇论文看起来没那么像。然而,发帖者认为,两篇论文之间的相似性还是可以表明,SIGIR 2019 论文的作者在写自己的论文之前肯定读过那篇 RecSys 2018 论文。

最后一个例子:

SIGIR 2019 论文 2.2 节:

「评论 r 的每个单词都被映射成对应的词向量,然后与特定于用户的向量连在一起。需要注意的是,在 2.3 节的对抗训练中,特定于用户的向量与鉴别器的参数 D_*θ*是一起学习的。接下来,用一个卷积层、最大池化层和一个全连接映射层来处理连接后的向量表征。CNN 的最终输出是一个 sigmoid 函数,它会将概率归一化为 [0, 1] 区间内的数字,表示候选评论由用户 u 撰写的概率。」

RecSys 2018 论文 3.1.2 节:

「首先,将评论中的每个词映射到相应的词向量,然后将其与一个特定于用户、表明用户信息的向量连接在一起。特定于用户的向量与训练中的其他参数是一起学习的。接下来,用一个卷积层、最大池化层和一个全连接层来处理连接后的向量表征。最终的输出单元是 sigmoid 非线性,它会将概率压缩到 [0, 1] 区间内的数字。」

我们注意到,这两段表述中有一个句子几乎完全一样(接下来,用一个卷积层……来处理连接后的向量表征)。

另外,发帖者认为,将特定于用户的向量连接到评论中的每个词向量是一个非常不直观的想法。ta 表示,来自不同研究团队的观点细节不可能如此相似。如果 ta 是作者,ta 会将特定于用户的向量连接到最后那个投影层之前的层上,因为这样能节省计算开销,泛化性能也更好。

在整理完这些重叠之处之后,发帖者陷入沮丧。ta 的结论是:这篇论文绝对不应该在这样一个顶会上发表。而且此时此刻,着急的应该不只是论文作者,SIGIR 2019 的论文评审恐怕也罪责难逃了。

在评论区,众人主张将此事告知 SIGIR 19 会议组织·,也有人认为二位抄袭者的学术生涯就此结束了。

两位作者都是知名学府的学者,他们应该知道,剽窃在学术界是件大事。

对于科学研究来说,观点、方法的剽窃已经是非常严重的不端行为,更何况出现了「复制+粘贴」这样的情况。

前段时间因为论文抄袭而「臭名昭著」的 Siraj Raval,也是活生生的例子。因为被人扒抄袭,不仅被骂得很惨,还被迫与自己创办的 AI 学院断绝关系。

嗯,这次他也被 cue 了:

这件事的后续,恐怕会引发更多关注,不知情况是否还会发生反转。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/dq82x7/discussion_a_questionable_sigir_2019_paper/

论文传送门:

  • https://gofile.io/?c=ej2y69

  • https://researchrepository.ucd.ie/bitstream/10197/10892/4/Why%20I%20like%20it%20Multi%20Task%20learning%20for%20recommendation%20and%20Explanation.pdf

理论论文ACM RecSysSIGIR
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

序列到序列技术

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

推荐文章
暂无评论
暂无评论~