一鸣 张倩报道

Nature揭露同行评审「潜规则」,审稿人操纵引用,爱思唯尔开始严查

被引率是学术评估中一个非常重要的指标,而根据古德哈特定律,当这些指标成为目标后,它们也就失去了原来的价值。这正是学界目前面临的现状。前段时间《Nature》曾发文揭露百名科学家自引率超 50% 的事实,有些甚至达到了 94%。时隔一个月,《Nature》再次发文,揭露了被引率驱使下的另一乱象:部分审稿人被质疑操纵审稿过程以提高自身被引率。

这项调查是由荷兰出版商爱思唯尔的分析师着手进行的。他们发现,可能有部分审稿人会鼓励被审论文作者引用审稿人的研究,作为交换,审稿人会为论文带来更为正面的评审意见。这种做法被称为「强制引用」(coercive citation)。

这项研究已于 9 月 6 日被收入 SSRN 社会科学研究库,目前还没有经过同行评审。

论文链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3339568

爱思唯尔的调查还显示,这些审稿人中,有一些人还在自己署名的研究中存在其他问题。发现这一问题的爱思唯尔分析师告诉《Nature》,他们「发现了明显的同行评审操纵痕迹」,以及研究者不止一次发表相同研究的证据。爱思唯尔表示,他们的调查将导致其中的一些研究被撤回。但他们也表示,没有必要将受强制引用影响的研究撤回,因为论文作者不应对这一问题负责,而且引用操纵其实对这些作者的研究没有影响。

从数据中发现的问题

这一可疑行为的发现者是爱思唯尔分析师 Jeroen Baas 和 Catriona Fennell。他们调查了大约 55,000 名爱思唯尔期刊审稿人的同行评审活动,以统计这些研究者的论文在他们所评审的论文中的被引率。

图注:被审论文引用了审稿人的次数统计。图源:论文。

这一分析缘起于爱思唯尔农林科学期刊《Geoderma》的一位审稿人。2017 年,该期刊审稿人 Artemi Cerdà、西班牙瓦伦希亚大学土壤科学家被指控使用自己的权力提升自身被引率,并因此从该期刊的编辑部离职。Cerdà否认了这项指控,但在他同样担任审稿人的欧洲地球科学联盟(European Geosciences Union)的出版部门,爱思唯尔调查人员发现了同样的问题。此后,爱思唯尔修改了编辑指南、编辑合同和审稿人指南,对这种做法提出了警告。

Fennell 和 Baas 的研究表明,多数审稿人的研究没有被他们评审的论文引用,98.5% 的审稿人在自己评审的论文中的被引率低于 10%。只有不到 1% 审稿人似乎总是在他们评审的论文中被引用。

由于审稿人和作者可能处在同一个研究领域,所以存在一些交叉引用也是情理之中。但审稿人的研究总是被他们评审的论文引用就未免有些可疑了。引用审稿人的文献这一做法是众所周知的,但究竟到了什么程度却不为大众所知,因为同行评审背后的数据通常保密。

Fennell 表示,他们已经完成了对最可疑案例的调查,其他案例还在调查之中。

「强制引用」不是一个新问题

早在 2012 年,《Nature》网站就发表了一篇研究——社会科学和商科领域的学者需要引用很多额外的文献,否则可能无法发表论文。

这确实是学术界公开的秘密了——为了提升文章的引用量,一些论文作者被审稿人要求多引用一些高引文献,以便提升该期刊整体的文献引用量。为此,很多初级的学者受到了压力。

「虽然『强制引用』确实存在,但是调查研究表明,这种现象发生的频率高得吓人。」研究作者表示。

另外,强制引用实际上是一个很大的灰色地带,因为确实有审稿人会建议作者,在论文中引用一些待投稿期刊发表过的文章。但是,「建议」和「要求」之间并没有明确的边界。另外,有些审稿人可能只会提示「引用这个期刊」,但是有些审稿人则会具体到要引用的文章,这可能就包括他们自己发表过的文章。

由于担心拒稿,作者往往会屈服于这样的「建议」之下。

监管措施正在路上

「是时候做些什么了,」俄克拉荷马州医学研究基金会生物信息学家 Jonathan Wren 表示。Wren 透露,今年早些时候,《Bioinformatics》期刊叫停了一位审稿人的审稿工作。调查发现,这位审稿人在每次审稿时平均会要求作者增加 35 条引用,其中 90% 是 ta 自己参与的研究。

Wren 正在写一个可以自动标记论文非正常模式的算法,包括对某一特定作者的过度引用。「如果在论文发表之后再开始监管,那你要怎么处理这些多出来的参考文献?」Wren 说道。

爱思唯尔正在考虑的一个方案是撤回研究中的部分参考文献,这是一个前所未有的做法。Fennell 表示,还有一个办法就是发布更正,「我们正在寻找最好的解决方法。」他表示。

审稿领域的乱象

这次事件再一次让论文审稿中的乱象暴露在公众的视野下。审稿人学术水平不高、评审只看引用量等指标、主观性过强这些问题,无不阻碍着学术的发展。

不懂深度学习,审稿人让顶着 AI 帽子的论文过关

今年早些时候,《Nature》官网刊登了一篇用 AI 搞科研的文章,引来了深度学习领域研究者的吐槽。

该论文的作者来自伯克利国家实验室能量存储与分布式资源部门(Energy Storage & Distributed Resources Division)科学家 Anubhav Jain 领导的团队,他们收集了 330 万篇已发表的材料科学论文的摘要,并将它们馈入到一个名为 word2vec 的算法中(NLP 中的词嵌入方法)。通过解释词间的关系,该算法能够提前数年给出新热电材料的预测,在目前未知的材料中找出有应用潜力的候选材料。

然而,这一研究只是将材料关键词的共线关系用词嵌入的方式展示了出来。哪几个关键词共现频率高就会被算法找到,AI 在这一过程中没有学到任何有关论文的知识。

如此浅显的问题,为何《Nature》都没有发现?一些网友认为,这和审稿人不懂深度学习有很大的关系。如果在审稿中哪怕给一位熟悉深度学习的人士看一眼这篇论文,无论如何这样的研究都不会过审。

学术指标拖累研究

有研究发现,论文评审和接收已经变得更加主观了。很多审稿人只注重论文作者的引用量和影响因子,这样一来,曾经在顶级期刊发表过论文的作者再次投稿发表的可能性会大大增加。

这一研究是以色列本古里安大学(BGU)的软件和信息系统工程助理教授 Michael Fire 发现的,他表示:

「大量的论文投稿使这些期刊的编辑们不堪重负,因此他们可能秉持安全而非冒险的审稿原则,仅选择那些知名且经验丰富研究者的投稿论文。」

外观判断论文好坏?顶会主席论文被自己的 AI 系统拒了

更加尴尬的是,有时候使用自动化的审稿系统也可能让一些论文莫名其妙地「躺枪」。

去年 12 月,CVPR 2019、ICCV 2019 的领域主席 Jia-Bin Huang 在 arXiv 上发表了一篇论文,基于论文的视觉外观训练了一个分类器来预测一篇论文应该被接收或者拒绝。

文章表示,好的论文版面非常重要。该研究中仅基于论文视觉外观训练出的分类器可以拒绝 50% 的坏论文,只有 0.4% 的好论文没被接收。然而,作者把训练出的分类器应用到这篇论文本身时,该论文遭到了无情拒绝,且拒绝概率高达 97%。

好论文的特定类别判别区域。

此文发出后,有读者表示,这是一个很讽刺的实验,证明现在的一些大会在审稿时有些过于注重外观。

除了上面指出的这些问题,审稿领域还存在其他一些乱象,如每次顶会论文评审结果出炉后都有人吐槽审稿人不认真或没看懂自己的论文。甚至有些深度学习顶会的审稿人会发出一些灵魂追问,如著名的:「What is softmax?」

去年的 NeurIPS 更是爆出了刚刚毕业的本科生成为大会同行评审的消息。以色列 Bar Ilan 大学的计算机科学高级讲师 Yoav Goldberg 对此评论道:「请搞清楚,这是『同行评审』,不是找『做过五个 TensorFlow 教程的人』。」

其实,这些都是顶会接收论文数量激增的必然结果。大会论文爆炸式增长与资深审稿人稀缺存在着天然的矛盾,如何解决这一矛盾仍是困扰学界的一大难题。

但是首先,审稿带来的问题需要改变。无论是爱思唯尔开始的内部调查还是用研究人员自动化程序进行统计和分析,都是揭露审稿乱象的重要开始。

参考链接:

https://www.nature.com/articles/d41586-019-02639-9

https://www.nature.com/news/researchers-feel-pressure-to-cite-superfluous-papers-1.9968

入门同行评审Nature
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

古德哈特定律技术

古德哈特定律是一个出自经济学家查尔斯·古德哈特的说法,玛丽莲·斯特拉腾(Marilyn Strathern)将之表述为「当一个措施本身成为目标时,它就不再是一个好的措施。」[1]一个会让此种现象发生的状况,是一个人对一项政策有一定的预期,并以人为手段改变结果的时候。

推荐文章
暂无评论
暂无评论~