Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陈萍、杜伟机器之心报道

封闭、缺少代码审查,硕士刚毕业的「老」工程师揭露ML残酷现状

当前,机器学习领域有没有夸大其词的地方呢?是否还存在不完善的地方?一位具有四年多工作经验且刚刚硕士毕业的工程师进行了「无情揭露」,包括导师的名气、代码审查、创新不明、唯论文论等。

「一个经验丰富的工程师对人工智能学术界的见解。」今日,一个 Reddit 热帖引发了大量讨论。

以下为原贴内容:

最近,我刚拿到硕士学位,也算对机器学习领域的整体「学术现状」有些了解,说不上幸运还是不幸。作为移民,由于没有发表几篇好的论文,所以很难进入好的研究实验室(这或许是为自己找个理由吧)。

在来美国攻读机器学习人工智能硕士学位之前,我曾在一家全栈 SWE 创业公司工作了四年多时间,工作期间我做了一切可以做的事情,从项目管理到构建全抛光的 S/W 产品、DevOps 甚至是机器学习

实话实说,我本身对机器学习知之甚少,纯粹是好奇心的驱使。我从一所名不见经传的大学获得本科学位,硕士学校在 AI 领域排名前 20。入学之后的 1 年至 1 年半时间,我专注于机器学习的研究,并找到了一位导师指导我的毕业论文。这才是「烦恼」开始的地方,虽然我有很棒的导师,但整个同行评审制度以及评估机器学习或者科学的方式令我恼火。

于是,不吐不快!

学术界遵循的封闭制度

假如你是世界顶级人工智能机构的博士生,有最好的教授指导。你在一个科研能力非常强的实验室获得博士学位的可能性会更大,而来自落后国家的的学生可能比较困难,因为他们的指导老师可能不那么出名,发表的论文也不是很出名。我来自一个发展中国家,我在这里看到过很多次,在我的国家,学术界得不到像美国大学那样的资助。

这其中一个原因在于大学以及研究者得不到那么多的捐赠和资助。而在美国学术界,品牌和声望举足轻重,有助于获得资助。这种声望 / 金钱会渗透到在那里工作的学生和研究人员身上。顶尖大学的学生拥有巨大的优势,顶尖研究人员的圈子一直来自同一套体系。

我并不反对顶尖研究机构的顶尖研究人员,但这种资金流动方式,一个恶性循环正在形成,最好的机构不断变得更好,而其他机构没有得到那么多的关注。

在 ML/AI 中,没有代码审查的同行评审是可疑的

我是一名计算机科学家,当我听说你不需要对研究论文进行代码审查时,我很震惊。作为一个计算机科学家和一个在过去一年里做了大量 ML 的人,我发现代码审查却不是这个系统的一部分。我不是说每个审核论文的科学家都应该审查代码,但至少有一个人应该审查论文的代码提交,至少在 ML 和 AI 领域是这样,这是最基本的。

我不明白那些连代码都不想看的人,为什么还自称计算机科学家。如果你做不到,那就让一个研究生来做吧。但对于科学的整体来说,我们需要代码审核。

核心问题在于同行评审是免费的:应该有更好的解决办法。我们最终创建了 Git,这改变了很多人的生活。学术研究也需要类似这样的东西。

什么才是创新?

科学研究的数量呈指数级增长。创造信息的速度快于我们的消化速度,我们不能期望人们了解一切。大量研究产生的副作用是,每篇论文都在研究一个「新颖」的内容,这就使得过滤什么是「新颖」的东西变得更加困难。

我有过很多这样的经历:我编写了一些代码,然后意识到其他人也做了一些类似的事情,而我的工作只是其中的一个小变体,这就是让我头疼的地方。我所做的是新颖的东西吗?到底什么是新颖的内容?用华丽的嵌入来拼接一个 transformer,然后把它整理成一篇新颖的研究论文,这仅仅是做了一个更大的 transformer,算是新颖吗……

应该鼓励协作,而不是唯论文论

无论人们如何谈论协作,学术界在本质上并没有促进正确的激励结构来支持协作。解释一下这个观点,当你写论文时,你的名字所放的位置很重要。如果你只是一个博士生,并且是一篇论文的第一作者,这很好。如果你是第 n 个作者,就没那么好了。显然,这对学者来说是一件非常敏感的事情。很多人会在名字顺序上发生冲突。

我清楚地记得,有一次我参加了一个实验室的研讨会,和几个学生讨论研究项目的想法。从博士生口中说出的第一件事就是作者的位置。作为一名过去与团队合作的工程师,这是我从未想过的事情。尤其是因为我在企业工作过,在那里团队总是高于个人。而学术界正好相反,学术界赞扬对个人成就的庆祝。

最后,我想说的是,博士学习对我来说是追寻「硬核」想法。但在当前的学术环境中,你要么发表论文,要么完蛋,即使发表的论文无法复现也不在乎。我不愿意走这条路。

我发表这些观点并不是贬低科学家,而是想唤起整个社区找到更好的方法来解决这些问题。

对于这位刚刚硕士毕业且很有经验的工程师的吐槽,有网友表示:「我觉得这些问题在很多领域都存在,并且似乎适用于整个学术界。AI 领域已经饱和了,所以需要创新。但我敢打赌,任何饱和的领域都是这样。」

另有网友指出:「除了这些问题,我认为还『缺乏对基础设施和平台构建的重视』。」

参考链接:
https://www.reddit.com/r/MachineLearning/comments/myiw7e/d_the_rants_of_an_experienced_engineer_who/
理论人工智能学术界机器学习
11
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

推荐文章
"而学术界正好相反,学术界赞扬对个人成就的庆祝。" 感觉不是太通顺,希望审稿的时候再仔细一点。