张倩机器之心报道

参与的论文即将中顶会,但我发现了数学错误,到底该不该说?

自己参与的论文得到顶会审稿人的赞赏本是一件值得开心的事,但 Reddit 上的一位网友却表示,ta 怎么都开心不起来。

这位网友在帖子中写道:

我与另一个机构某研究小组提交的一篇 ICML 论文有直接关系。在经过最初的审阅后,我意识到论文所依据的基本定理存在客观的数学错误。

对于这一子领域的任一研究者来说,找到违反这一定理的一个反例都毫不费力。但令人意外的是,居然没有一个审稿人发现这个错误,甚至还给出了极高的评分(大概率是接收了)。

由于我只在研究初期参与了这篇论文(比如构建思路和路线图),所以在论文提交之前,我一直没有仔细看。
论文中的证明部分利用了新、旧文献中某个概念两种定义之间的细微差别。此外,最终版的论文还用到了浮夸的数学符号,使得错误难以被发现。在我看来,这种数学写作风格和矛盾定义的使用似乎是故意为之。

但问题是,如果我现在出面干预,论文的 PI 和负责证明的博士生都会很生气,前者只读过摘要,后者有众所周知的自恋倾向。我不想用自己的职业生涯冒险,因为 PI 是这个领域的大牛,那个博士生与 FANG 公司中的一家有着密切联系(该公司的一个 top-5 研究员是 ta「最好的朋友」)。
我在想,如果我什么也不做,最坏的情况就是被其他人发现这个错误,并写一篇「相反」的论文来反驳我们的错误。

我觉得我可能不是唯一一个面临这一困境的人。大家有人遇到过这种情况吗?有什么经验可以分享吗?
自己参与的论文有问题,但碍于种种原因不知道该不该发声,这种情况到底该怎么办?很多网友在帖子下面给出了自己的建议。

袖手旁观肯定是不行的,但行动也要讲究方式方法

根据发帖者的描述,他有可能是论文的作者之一,因此,袖手旁观对于他本人也是有害的。有位网友表示,「如果我发现一篇论文有严重错误,我不会因为某个作者排在中间而放过他。因为从理论上来说,每个人都要为论文的正确性负责。」

既然不能袖手旁观,那现在的问题就变成了:「如何指出问题?在此之前要注意什么?」

对于普通研究者来说,写出一篇能被顶会接收的论文着实不易。因此,对于该论文的指控也要更加谨慎,首先要确定别人是不是真的错了。如果自己不太把握,还可以找一个信得过的朋友一起讨论。如果大家都认为问题确实存在,再采取下一步行动。

当然,这一过程也可以和论文主要作者一起完成:你把你发现的反例提供给作者,让他们就此提供一个说明,看看是你错了还是他们错了。提出该建议的网友认为,「这是开启讨论的一种体面方式,不会让当事人觉得自己受到了侮辱、挑战或指责。」

是否「体面」也取决于方式方法,高情商的人往往会采取比较委婉的方式,比如:「我不确定我对这个定理的理解对不对。你能帮我看看这个方程吗?」一般来说,不会有人因为别人提出了一个问题就气急败坏。如果论文主要作者不是故意犯错,他们在发现问题之后很有可能会自己修改或撤回论文。

但这么做有一个问题:如果作者是明知故犯呢?

如果真的是这样,温和的方式可能无法解决问题,还会让发帖者很尴尬或得罪人。

因此,有网友提供了另一种做法:直接给领域主席写匿名信。此举也得到了不少人的支持。

这本不该是一个两难问题

由于发帖者提供的信息着实有限,我们也很难判断论文作者究竟属于哪种情况,适用哪种做法。但不可否认的一点是:这种连指出错误都需要小心翼翼的学术环境是不正常的,证明 ML 社区确实存在一些问题。

在帖子中,作者指出了一个问题:论文中采用了一些浮夸的数学符号以及令人迷惑的写作风格,因此错误不易被发现。其实,这一问题在 ML 社区非常常见,有人甚至给它起了个名字,叫「数学墙 」。

「数学墙」指的是论文作者通过堆砌不必要的数学公式让论文看上去更加「深奥」,以此来提高论文被接收的概率。一位 ML 社区之外的研究者曾批评说,「(数学墙中的)有些定理其实并不适用…… 从这些错综复杂的数学定理中唯一获得的东西就是一些微弱的直觉,这些直觉还可能会被立刻推翻。」

为什么「数学墙」那么好用呢?这就需要站在审稿人的位置来思考一下了。近年来,由于顶会论文出现爆炸式增长,ML 社区的审稿人面临人手短缺、精力透支等各种问题。有人猜测说,一个不太专业的审稿人可能会拒绝自己看不懂的想法,因为 ta 不喜欢这个想法。但在看到「数学墙」之后,ta 可能会给出更加严谨的审稿结果,如「弱接收(Weak Accept)」或「弱拒稿(Weak Reject)」。即使审稿人能看懂里面的数学证明,他八成也没有时间验证,从而给出错误的接收结果。喜欢用「数学墙」蒙混过关的研究者就是利用了这些 bug。

一位网友表示,自己还因为拒绝使用「数学墙」而吃过亏。为了让审稿人看懂,他们千方百计地简化了论文中的证明,但却被审稿人以「突破性、新颖性不足」为由拒了稿。在 ta 看来,审稿人似乎格外青睐那些复杂但模糊的论文。

如今,ML 社区的「数学墙」问题似乎变得越来越严重,如果任由其「劣币驱逐良币」,原本不愿同流合污的研究者也要被拖下水了。

在这个帖子的下面,还有不少网友给出了自己的看法和建议。如果你有更好的做法,欢迎在评论区与我们分享。

参考链接:
https://www.reddit.com/r/MachineLearning/comments/mdpb6v/d_dilemma_mathematically_wrong_icml_submission/
理论ICML论文评审
暂无评论
暂无评论~