作者:Michael Fire

引用量、影响因子,这些指标正在拖累学术研究

我们评价一名学者经常会以他/她的论文引用数量作为标准,但这种被沿用数十年的惯例真的有效吗?以色列本古里安大学(BGU)的软件和信息系统工程助理教授Michael Fire最近撰文介绍了自己对于20世纪以来大量学科研究的引用数、H-index和影响因子等的统计分析,结果表明,这些标准已经失去意义。

发表学术论文非常具有挑战性、刺激性,但也让人有点困惑。挑战性在于,你的研究可能遭遇滑铁卢。刺激性在于,研究之初的设想是一回事,实际产出可能和设想的完全不同。困惑之处在于,论文写好之后,你还必须找到一家知名的机构发表研究。

实际上,最后这一部分不仅令人困惑,还很不合逻辑。我几乎从不知道一篇论文将会被哪里接收。我有一些论文发表在公认的知名期刊上,但同样的论文却被不那么知名的期刊拒绝了。论文的提交、评审过程是相对随机和主观的。当前的状况更是如此:根据 SCImago Journal Rank (SCImago 期刊排名,SJR),目前共有 34000 多种期刊参与排名,其中 AI 领域的期刊就有 1000 多种(见图 1)。你几乎可以无休止地寻找出版期刊。

AI 期刊的逐年数量

作为一名研究者,我对学术出版物多年来的演变过程很感兴趣。我想看看那些常用的学术指标(如影响因子、h-index)在衡量学术成就方面是否真的发挥作用。我想知道究竟是什么因素使得某些论文可以发表在 Science、Nature 等顶级期刊上。

为了开展这项研究,我和 Carlos Guestrin 开发了一个开源的代码框架,进而分析几个大规模数据集,它们包含 1.2 亿份论文、5.28 亿条参考文献和 3500 万名作者,有的论文可以追溯到 20 世纪初。我们发现,学术出版在数量和速度方面都发生了很大变化。1950 年的论文发表数量大约为 17.4 万,到 2014 年激增到 700 万。例如,根据 SJR 的统计,排名期刊上发表的 AI 论文数量大幅增长,从 1999 年的 7000 多份增加到 2016 年的四万六千多份。而且,研究者分享、发表研究的速度也大为提高。今天的研究者不仅可以在数量不断增加的传统出版物(如会议和期刊)上发表论文,还可以选择在发表速度更快的预印版电子平台和 mega-journal 上发表。

从我们的分析可以准确、全面地看出学术出版界的演变。我们发现学术界在不同层次上出现广泛的潜在变化:

  • 论文:研究发现,随着时间的推移,论文篇幅变短了,但标题、摘要、作者名单却变长了。参考文献数量和自引数量显著增加,但不加任何引用的论文数量也增长很快。

  • 作者:研究发现,新的作者大批涌现。相比于前些年学术生涯长度相同的研究者,这些新作者发表论文的速度要快得多。此外,随着时间的推移,每位作者的平均合著者数量显著增加。最后,我们发现,近年来越来越多的作者选择在会议上发表文章。

学术生涯长度 vs 平均发表论文数量

  • 期刊:期刊数量激增,每年都有数百份新的期刊。此外,我们发现,2017 年大部分发表论文刊登在 Q1 区期刊。例如,2017 年超过 53% 的 AI 论文发表在 Q1 区期刊。我们还观察到期刊排名受论文平均引用量影响很大,而 h-index 指标随着时间增加而下降。在分析顶级期刊的趋势后,我们发现每种期刊的论文发表数量都出现了急剧增长,一作和最后一作的学术生涯长度也出现了显著增长。例如,在《人工智能研究杂志》(Journal of Artificial Intelligence Research)上,最后一作的平均学术生涯长度从 1993 年的 8.7 年上升到了 2014 年的 15.8 年。此外,近年来 returning author 的期刊文章发表比例急剧增长。例如,2014 年 Nature 杂志有超过 76% 的论文的至少一作者曾经在 Nature 上发表过文章,而这一比例在 1999 年才 45.5%。

  • 研究领域:我们分析了 19 个主要研究领域(如生物和计算机科学)和 2600 个子领域的属性,发现不同领域的属性值跨度很大。即使同一领域的不同子领域的平均引用量也大不相同(参见:http://sciencedynamics.cs.washington.edu/fields_stat.html)。

五大重要见解

我们从该研究中发现了以下五个重要洞见:

一,研究结果支持古德哈特定律,即当传统指标(如论文数量、引用数量、h-index 和影响因子)成为目标后,这些指标也就失去了重要性/影响力。把论文写短一点、和更多作者合作可以帮助研究者在同等时间下产出更多论文。此外,论文结构的主要变化与高引用量有关。作者可以使用较长的标题和摘要,或者在标题中使用问号或感叹号,使论文更有吸引力,从而增加引用量,即「学术界的标题党」……这些结果支持我们的假设:学术论文为了复合目标指标而不变变化。

二,论文引用量成为很多研究者的目标。我们观察到研究者在新研究中引用其以往研究的频率呈增长态势,一些作者甚至数十次甚至数百次引用自己的论文。此外,大量论文——超过 72% 的论文和具备至少 5 个参考文献的论文中有 25% 的研究在发表 5 年后就没有人引用了。很明显,大量资源被花费在影响有限的论文上了,这可能表明研究者发表更多低质量论文的目的在于增加论文发表数量。我们还注意到,不同年代的论文引用量分布差异很大。因此,对比曾在不同时间段发表论文的研究者的引用量数据很有难度。

自引数量的时间变化趋势

第三,我们观察到发表论文的新研究者数量出现指数增长,这可能是学术生涯压力造成的。我们还观察到在学术生涯中,年轻学术研究者的论文发表数量较他们的前辈多得多。此外,我们看到,早期学术生涯研究者作为一作发表论文的比例低于他们的前辈。在「要么发表要么出局」的环境激励下,研究者通过彼此之间更多的合作(添加到更长的作者列表中)以及发表更多的会议论文来提高发表量。

一作论文发表频率

第四,某些趋势正在塑造顶级期刊论文发表格局。特定顶级期刊中的论文数量随着作者学术年龄增长和 returning author 比例提升而出现了显著增加。近年来,向《Science》等顶级期刊投稿的数量急剧增长,但是很多此类期刊主要发表的论文中至少有一位作者曾在该期刊中发表过论文。我们认为这种情况也是古德哈特定律的结果。研究者追求的是高影响因子,因此这些顶级期刊每年的投稿数量大大增加。大量的论文投稿使这些期刊的编辑们不堪重负,因此他们可能秉持安全而非冒险的审稿原则,仅选择那些知名且经验丰富研究者的投稿论文。

使用基于引用量的方式来「区分科学家」就像比较苹果和橘子一样。通过比较 2600 多个科学研究子领域的学术指标,我们可以观察到不同领域的论文存在巨大差异。即使在同一领域内的论文也存在着广泛的属性,包括引用文献的数量和引用中间值。这些结果表明,在比较不同领域的研究人员时,甚至在比较同一个子领域的研究人员时,使用引用数量、h-index 和影响因子等指标都是无用的。

第五,使用这些评价指标来比较学术研究实体会极大地影响资源分配,从而损害研究。例如,由于这些指标可以提升大学的世界排名,因此他们会选择在计算机科学和生物领域投入更多,而不是经济、心理学等引用量较少的学科。即使是在同一个系里,选择新教员的评判标准也会因为这些指标而变得有所偏差。计算机科学系会愿意雇佣引用量更高领域的研究员,而不是那些致力于研究冷门方向的研究员。随着时间的推移,这可能会导致高引用量研究领域的过热,而忽视了其他同样重要的领域。

我们应该重新考虑评价论文的方式了。基于被引用量的评判标准已经使用了数十年之久,而它远非完美。事实上,基于有效引用数量的论文评判方式已经沦陷,它的实用性正在被人不断质疑。古德哈特定律正在学术出版领域显现。

相关论文:Over-optimization of academic publishing metrics: observing Goodhart’s Law in action

论文地址:https://academic.oup.com/gigascience/article/8/6/giz053/550490

入门学术影响力
相关数据
逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

推荐文章
暂无评论
暂无评论~