当前,机器学习领域有没有夸大其词的地方呢?是否还存在不完善的地方?一位具有四年多工作经验且刚刚硕士毕业的工程师进行了「无情揭露」,包括导师的名气、代码审查、创新不明、唯论文论等。
「一个经验丰富的工程师对人工智能学术界的见解。」今日,一个 Reddit 热帖引发了大量讨论。最近,我刚拿到硕士学位,也算对机器学习领域的整体「学术现状」有些了解,说不上幸运还是不幸。作为移民,由于没有发表几篇好的论文,所以很难进入好的研究实验室(这或许是为自己找个理由吧)。在来美国攻读机器学习和人工智能硕士学位之前,我曾在一家全栈 SWE 创业公司工作了四年多时间,工作期间我做了一切可以做的事情,从项目管理到构建全抛光的 S/W 产品、DevOps 甚至是机器学习。实话实说,我本身对机器学习知之甚少,纯粹是好奇心的驱使。我从一所名不见经传的大学获得本科学位,硕士学校在 AI 领域排名前 20。入学之后的 1 年至 1 年半时间,我专注于机器学习的研究,并找到了一位导师指导我的毕业论文。这才是「烦恼」开始的地方,虽然我有很棒的导师,但整个同行评审制度以及评估机器学习或者科学的方式令我恼火。假如你是世界顶级人工智能机构的博士生,有最好的教授指导。你在一个科研能力非常强的实验室获得博士学位的可能性会更大,而来自落后国家的的学生可能比较困难,因为他们的指导老师可能不那么出名,发表的论文也不是很出名。我来自一个发展中国家,我在这里看到过很多次,在我的国家,学术界得不到像美国大学那样的资助。这其中一个原因在于大学以及研究者得不到那么多的捐赠和资助。而在美国学术界,品牌和声望举足轻重,有助于获得资助。这种声望 / 金钱会渗透到在那里工作的学生和研究人员身上。顶尖大学的学生拥有巨大的优势,顶尖研究人员的圈子一直来自同一套体系。我并不反对顶尖研究机构的顶尖研究人员,但这种资金流动方式,一个恶性循环正在形成,最好的机构不断变得更好,而其他机构没有得到那么多的关注。在 ML/AI 中,没有代码审查的同行评审是可疑的我是一名计算机科学家,当我听说你不需要对研究论文进行代码审查时,我很震惊。作为一个计算机科学家和一个在过去一年里做了大量 ML 的人,我发现代码审查却不是这个系统的一部分。我不是说每个审核论文的科学家都应该审查代码,但至少有一个人应该审查论文的代码提交,至少在 ML 和 AI 领域是这样,这是最基本的。我不明白那些连代码都不想看的人,为什么还自称计算机科学家。如果你做不到,那就让一个研究生来做吧。但对于科学的整体来说,我们需要代码审核。核心问题在于同行评审是免费的:应该有更好的解决办法。我们最终创建了 Git,这改变了很多人的生活。学术研究也需要类似这样的东西。科学研究的数量呈指数级增长。创造信息的速度快于我们的消化速度,我们不能期望人们了解一切。大量研究产生的副作用是,每篇论文都在研究一个「新颖」的内容,这就使得过滤什么是「新颖」的东西变得更加困难。我有过很多这样的经历:我编写了一些代码,然后意识到其他人也做了一些类似的事情,而我的工作只是其中的一个小变体,这就是让我头疼的地方。我所做的是新颖的东西吗?到底什么是新颖的内容?用华丽的嵌入来拼接一个 transformer,然后把它整理成一篇新颖的研究论文,这仅仅是做了一个更大的 transformer,算是新颖吗……无论人们如何谈论协作,学术界在本质上并没有促进正确的激励结构来支持协作。解释一下这个观点,当你写论文时,你的名字所放的位置很重要。如果你只是一个博士生,并且是一篇论文的第一作者,这很好。如果你是第 n 个作者,就没那么好了。显然,这对学者来说是一件非常敏感的事情。很多人会在名字顺序上发生冲突。我清楚地记得,有一次我参加了一个实验室的研讨会,和几个学生讨论研究项目的想法。从博士生口中说出的第一件事就是作者的位置。作为一名过去与团队合作的工程师,这是我从未想过的事情。尤其是因为我在企业工作过,在那里团队总是高于个人。而学术界正好相反,学术界赞扬对个人成就的庆祝。最后,我想说的是,博士学习对我来说是追寻「硬核」想法。但在当前的学术环境中,你要么发表论文,要么完蛋,即使发表的论文无法复现也不在乎。我不愿意走这条路。我发表这些观点并不是贬低科学家,而是想唤起整个社区找到更好的方法来解决这些问题。对于这位刚刚硕士毕业且很有经验的工程师的吐槽,有网友表示:「我觉得这些问题在很多领域都存在,并且似乎适用于整个学术界。AI 领域已经饱和了,所以需要创新。但我敢打赌,任何饱和的领域都是这样。」另有网友指出:「除了这些问题,我认为还『缺乏对基础设施和平台构建的重视』。」https://www.reddit.com/r/MachineLearning/comments/myiw7e/d_the_rants_of_an_experienced_engineer_who/