论文想法跟别人撞车了,我还要不要继续?

去年 11 月,机器之心曾报道过,韩国首尔大学研究者的一篇论文和英伟达已发表的论文撞了车。为此,二作赶紧将代码、生成样本以及 arXiv 手稿放了出去,并在 Reddit 上发布公告,然后苦苦思索如何安慰在实验室角落哭泣的一作。幸运的是,英伟达的研究人员在 reddit 上看到了这份公告,并表示希望作者去英伟达实习。论文撞车在学术界并不罕见,但并非每一位研究者都能如此幸运,迎来一些意想不到的转折。多数撞车者苦苦思索的是:这个想法还要不要坚持下去?

图源:美剧《生活大爆炸》

最近,一位硕士研究生在 reddit 上发帖提问:论文想法撞车之后到底要不要放弃?以下是原帖摘要:

我是一名硕士研究生,一直以来都在挣扎着寻找走下去的动力。

几天前,我拥有一个自认为非常有趣的想法,还进行了几个小的实验确认了自己的假设。然后,我开始寻找现有工作/理论基础,但却发现有人在几周前就在 arXiv 上发表了类似的想法。

这种事已经不是第一次在我身上发生了,我感觉有点泄气,于是就彻底放弃了这个想法。我在想,即使我改进了这个想法又有什么用?它既不独特也不新颖。

其他人遇到过这种事吗?大家继续坚持这个想法了吗?

对于这位网友的提问,多数评论者给出了积极的回应和鼓励,认为应该坚持下去,他们给出了以下坚持下去的理由:

理由 1:牛顿-莱布尼茨公式了解一下

我们可以看一下科学史上著名的公案——牛顿和莱布尼茨之争。大约在 400 年前,他们同时发现了微积分,但这并没有影响他们各自在领域内的地位。所以,你应该以自己的方式写下自己的想法,然后发表它。让同行来决定你的想法是否新颖和具有价值。

理由 2:想法不会完全相同,可以在现有想法的基础上继续改进

如果你遇到这种情况,可以把它当做自己拥有好想法的一种认可。坚持下去,虚心接受其他评论者的建议,这样你就可以先于他人想出和发表新的观点。

即使你的想法与他人相同,至少也会有一些不同的地方,这就是你可以发表的东西。即使你与他人在做相同的事情,但使用的数据不同,那么你的想法依然值得发表,作为对新领域想法的验证。同时你也能够比较容易地想到这个方法可能出错或者需要改进的地方,这就是你接下来要做的事情。

所以,不要让这种情况阻止你继续前进的脚步,将它视为下一个想法的起点就好了。

另一位评论者也表示,与其因为某个想法已经发表就放弃,还不如思考一下如何进行扩展、强化或以此为基础。这才是科学前进的方式。

理由 3:能撞到几周前才发表的 idea,你已经很优秀了

我的数据科学教授曾经讲过他与自己博士生之间互动的故事。在这些博士生第一次带着自己的想法向教授请教时,教授会说「太棒了!这个想法 10 年前就发表过了」。之后,他们会带着新的想法再次向教授请教,教授会说「做得好!这个想法 2 年前才发表。」

我想你应该明白我想说的了。随着在自己领域内获得的知识越来越深入,你会越来越靠近领域前沿,到最后你会自己去扩展前沿。你应该感到自豪,因为你发现了一些一周前才发表的新东西。坚持下去,你就会有新的想法。

以上理由基本都可以用一位评论者的观点进行总结:「如果你的想法之前没有人发现,你要继续做下去。如果已经有人发现了,你应该做得更好

当然,除了鼓励之外,有些评论者也理性地分析了「撞车」背后的深层原因以及可以从中汲取的经验教训。

一位评论者表示,如果你的想法经常和别人撞车,那可能表示你的想法不够具体或充分。例如,如果你的想法是「利用 GAN 进行基于模型的强化学习」或「对视频进行无监督学习以实现图像分类」,那么你的想法总是不可避免地会被别人抢先。但如果你的想法足够充分,比如「分布式强化学习」或「Wasserstein GAN」,撞车的几率就要小很多。

此外,该评论者还表示,「撞车」也是一次免费的宣传机会。

如果你的论文大都是在其他人发表的时候完成的,那你应该立刻上传至 arXiv,并将它作为并行的研究来讨论。这实际上也是一件好事,意味着你也会在他们宣传论文的时候得到关注。所以,免费的宣传,何乐而不为呢!

除了这些正面的鼓励和建议,还有一位评论者通过一篇 Nature 评论文章表达了自己的看法。

这篇文章标题为「Publish houses of brick, not mansions of straw」,作者 William G. Kaelin Jr 是丹娜法伯癌症研究院(Dana-Farber CancerInstitute)和哈佛医学院布列根和妇女医院 (Brigham and Women's Hospital)的医学教授。他于 2016 年获得拉斯科基础医学研究奖(Albert Lasker Award for Basic Medical Research)。

Kaelin 教授

在这篇文章中,Kaelin 教授揭露了学术论文创作中存在的一些异象,即学术论文数量越来越多,研究方法也越来越花哨,但真正有坚实数据支撑的论文少之又少。因而他呼吁抵制学术浮躁,沉下心贡献学术「干货」。

如果你的想法也和别人撞车了,希望这篇文章能给你一些启发。

Publish houses of brick, not mansions of straw

我对生物学研究中存在的马虎现象感到担忧:太多已经发表的研究成果只有在非常狭窄的条件下才能成立,或者根本无法复现。原因是多方面的,但最根本的原因很难确定。有句谚语叫「温水煮青蛙」,生物学研究者也深陷在这样一种漩涡中。过去几十年里,个人论文里的数据和想法的数量逐渐增长。此外,一篇论文的目的似乎已经从验证具体结论变为做出尽可能宽泛的断言。这种论文的危险之处在于,学术研究越来越像稻草建成的大厦,而不是真正坚固的砖瓦之房。也就是说,论文越写越泛,研究方法越来越花哨,研究结论越来越多,但明确坚实的结论相对减少。

2016 年,我和 Gregg Semenza 及 Peter Ratcliffe 因为发现细胞感知氧气的方式而获得了拉斯克奖(Lasker prize),而让我们获奖的那些论文都是十几年前发表的。在今天看来,那些论文都会被认为是古怪、初级的,不太够资格发表。其中一项研究表明,肿瘤抑制蛋白是氧气信号传递所必需的,但如果放到当下,它会因未能包含一个清晰的机制和动物实验而受到批评。另一项研究表明,该蛋白的主要靶点受到氧气依赖修饰,但由于我们还没有确定相关的酶,该研究差点被拒收。幸运的是,一位经验丰富的编辑介入了这件事,表示这项研究的发表将为其他研究小组开启对这种酶的探索之路。如今,这种走运的事似乎不多见了。

那么是什么让今天的科学论点如此膨胀呢?一个因素是资助机构过于强调学术影响和转化;另一个因素是技术进步使数据收集变得更加简单,这些数据可以在网络上得到补充。这两个因素促使审稿人和编辑向投稿人提出额外实验要求,而这些实验与主要的结论无关,或者只是为了提高影响因子。与拒绝某篇论文并要求进行更多实验相比,接收一篇论文往往需要更大的勇气。这使得那些符合预期研究结果的论文更容易被接收。因此,当资金紧张时,评审员会提出更多要求。

过去,一个有趣的观察结果可能会带来一系列测试其稳健性的实验。当我还是一名博士后的时候,一篇完整的论文可以包括对两种相互结合的蛋白质的检测,以及后续实验,以确定这种结合发生在活细胞中。如今,支撑这一论断的数据由一两个实验组成。论文的其余部分将描述跨越不同学科的工作,这些工作提升了作者的论点,并最终形成了一个具有临床相关性的图表。

不幸的是,这种广度的提升往往以牺牲深度为代价。在从实验数据中进行推断时,进行多重确证是必不可少的,因为任何单独的方法都有缺陷和局限性。我担心的是,现在的文献已不再是只提出一个主要论点,然后通过多种方法进行论证。相反,论文中提出多个论点,每个论点只有一个薄弱的支撑。这些论文上的最终数字往往显得过于牵强。

过于宽泛的论点也给同行评审带来挑战。尽管我算是一名颇有经验的审稿人,但我发现,论文中越来越多的数据让读论文的评审过程变得异常艰难,并且我经常会遇见自己不擅长的材料。如果这一趋势发展下去,审稿人要申请短期学术休假才能审论文。编辑或许能够召集拥有互补背景的审稿人来审阅这种宽泛的论文,但这么做的代价是让多个专家审阅一些相同的实验。我担心那些作为补充的论文部分(审稿人通常不会细究)会用来掩盖薄弱的数据。

另一个意想不到的后果是新知识交流的延迟和训练时间的延长,因为专业能力提升与创作一部数年才能完成的巨著密不可分。没有答案的问题和不明原因的结果通常被认为是差的研究,很难被杂志接受发表。这可能会鼓励不良行为,比如挑拣数据,这样就不会出现数据不完整、不一致或无法解释的情况。我们应该认识到,当论文坦率地承认其局限性和令人困惑的结果时,能够推动科学向前发展。

知识缺乏是临床转化的真实瓶颈。我们需要停止向基础科研科学家(尤其是实习生)灌输某种思想,即他们工作的价值要由能否实现转化来衡量。我们必须对研究论文的原创性、实验设计、数据质量进行更加细致的检验,同时采取更谨慎的态度预测影响力,真正的科学和学术价值只有等待未来的评价。我们还应该重视研究工作主体的质量以及该工作是否促成了后来的发现,而不是把重点放在单篇论文发表在什么期刊。

缺乏知识是临床转化的真实瓶颈。我们需要停止向基础科研科学家(尤其是实习生)灌输某种思想,即他们工作的价值要由能否实现转化来衡量。我们必须对研究论文的原创性、实验设计、数据质量进行更加细致的检验,同时对预测的影响保持更加谦逊的态度,其影响只有在回溯时才能真正了解。我们还应该重视研究工作主体的质量以及该工作是否促成了后来的发现,而不是把重点放在单篇论文发表在什么期刊。

在审阅一篇论文时,主要问题应该是其结论是否正确,而不是先假设如果结论正确,该结论是否重要。

真正的科学大厦是用砖石砌就,而非稻草。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/c1rle7/discussion_how_do_you_maintain_motivation_and/
https://www.nature.com/news/publish-houses-of-brick-not-mansions-of-straw-1.22029

理论论文
2
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

微积分技术

微积分(Calculus)是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法 。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~