Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制

近年来,人工智能领域对于大型计算机会议审稿机制的诟病与日俱增,这一切背后的矛盾源于论文作者、会议主办方和审稿人三方并不一致的利益:

  • 论文作者希望他们的论文被会议接收;

  • 会议主办方希望接收更多的优质论文以提高会议的声誉(会议质量);

  • 审稿人则希望避免过多的审稿工作量(审稿压力)。

因此,如何在论文数量大幅增加的大环境下权衡会议质量和审稿压力是达到三方利益均衡的核心问题。去年,来自人工智能领域的学者针对如何改进会议审稿和决策机制这一问题提出了众多看法和建议,这些想法被汇总为一篇 23 页的谷歌文档。其中一条想法十分有趣并得到了多人认同:

图片

文档链接:https://docs.google.com/document/d/1j7Mn2ZkquSzWJ_EzxdXBP3z_JQtrSeUa-CQ0gotAuYw/mobilebasic

这一想法源于这样一个反直觉的现象, 本文称之为重投悖论(resubmission paradox):

每年有大量论文会被拒收(人工智能顶会例如 NeurIPS 接收率常年低于 30%),其中大部分论文会在仅有微调甚至完全没有改动的情况下参与重投,最终总会被同一会议或同级别的会议接收。既然大部分论文终究会被接收,那为什么不降低论文的接收门槛使得更多论文在经过更少次数的重投后就可以被接收?这样就可以避免同一篇论文被审稿人反复阅读进而降低审稿压力。

图片

尽管这一想法看上去十分合理,本文作者提出用博弈论模型描述作者和会议之间的互动,并对这一想法给出了否定的回答,研究论文已被 Economics and Computation (2022) 接收。在这一模型下,本文了讨论不同的审稿和决策机制在权衡会议质量和审稿压力中的表现,比如以下问题:

  • 如何确定最优的接收门槛?

  • 是否应该增加一篇论文的审稿人数量?

  • 提高审稿质量有什么好处?

  • 是否应该作者同时提供论文的以往审稿意见?

  • ……

图片

论文链接:https://arxiv.org/pdf/2303.09020v1.pdf

1. 模型概述

本文将作者向学术会议提交论文并审稿的过程建模为重复博弈,具体流程如下:

首先,每个作者有一篇论文准备提交。在每一轮投稿中,作者进行二选一决策:将论文提交到顶会还是 sure bet(比如声望较低的二类会议)。提交到顶会和 sure bet 的结果取决于审稿机制和论文质量:

  • 顶会有一定概率接收论文,一旦接收,作者会获得较大的收益;

  • sure bet 保证论文一定接收,但带来的收益较小。

其中,顶会的决策完全取决于审稿人的评审意见, 比如设置一个接收阈值,当且仅当平均审稿分数高于阈值时接收该论文,而作者的收益随着重投次数指数折减。

顶会承诺一个审稿 / 决策机制,作者针对该机制做出最佳策略;而顶会则需要在考虑作者最佳回应策略的前提下,设计出能权衡会议质量和审稿压力的最优机制。

图片

2. 主要结论

利用上述建模方法,本文得出一些重要结论,包括:

1)作者的最优策略

在一个简化的模型中(更复杂的模型详见原文),本文做出如下假设:作者知道其论文的真实质量,会议的决策是无记忆的(每轮审稿的决策仅取决于该轮审稿人的意见),并且作者有无穷次重投机会。在这种情况下,作者存在一个阈值最优策略:

  • 如果论文质量高于阈值,作者将选择投稿顶会,并且无论经历多少次拒稿,作者都会选择重投,直到中稿;

  • 如果论文质量低于阈值,作者将立即选择 sure bet。

通常情况下作者的提交阈值 Θ 低于会议的接收阈值 τ,如下图所示。

图片

以上结论可以用来解释重投悖论:为什么接收更多论文不能从本质上降低审稿压力?这是因为降低会议的接收阈值 τ 会同时降低作者的提交阈值 Θ,进而吸引更多低质量论文的提交。如下图所示,如果接收阈值降低,一部分从前选择投稿二类会议的论文(紫色区域)如今选择投稿顶会。

图片

2)会议质量和审稿压力

顶会的审稿 / 决策机制需要权衡会议质量和审稿压力,二者不可兼得。

  • 会议质量 = 所有被接收论文的质量之和

  • 审稿压力 = 一篇论文从投稿到最终被接收被审稿次数的期望值

改变接收阈值会同时改变会议质量和审稿压力(如下图)。

图片

图为会议质量(纵坐标)和审稿压力(横坐标)关于接收阈值的变化曲线,σ 为审稿人噪音的标准差。

以下三种情况可以得到会议质量和审稿压力之间更优的权衡(达到相同的会议质量只需更小的审稿压力):

  • 更好的审稿质量 ——— 审稿人噪音更低;

  • 更低的顶会声誉 ——— 相比 sure bet,顶会带来的收益更低;

  • 更短见的作者 ——— 作者收益在多轮重投下有更大的折减。

3. 结语

本文旨在呼吁学术会议改进审稿和决策机制时应考虑不同机制对论文作者带来的激励,更多有趣的结论详见论文原文,比如论文接收率主要受什么因素影响?作者在不能准确知道自己论文质量的情况下的最优策略是什么?要求作者提供论文的以往审稿意见对会议有什么样的影响?

当然,本文的理论模型在不同层面上存在很多局限性:比如本文没有考虑审稿压力对审稿质量的负反馈效应,以及会议质量对作者收益的正反馈效应,并且认为论文质量不会在拒稿过程中得到提高等等。对于会议同行评审系统的讨论和改进不会止步于此,从博弈的角度理解会议审稿机制尤为重要,欢迎感兴趣的读者查看论文原文或致信文章作者,以讨论更多研究细节。

理论学术会议作者博弈论模型
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

推荐文章
暂无评论
暂无评论~