路 贾伟报道

Google AI发数据集论文、办挑战赛却拒绝开放数据集?结果被怼了……

近日,有网友在 reddit 上提出 Google AI 拒绝公开 Conceptual Captions 数据集(相关论文发表在 ACL 2018 上),谷歌除了发表相关论文以外还举办了使用该数据集的挑战赛(比赛结果在 2018 年 NeurIPS 会议上公布)。这引发了网友对这种做法是对是错、学术会议同行评审是否应该把论文复现作为重要考量因素等的激烈讨论。

原帖主要内容是:

谷歌曾在 ACL 2018 上发表了一篇数据集论文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,该数据集 Conceptual Captions 共有大约 330 万张图像。但他发现了几个问题:

  • 谷歌拒绝共享预训练模型,这使得基准测试变得异常艰难:

  • https://github.com/google-research-datasets/conceptual-captions/issues/3;

  • 拒绝共享与每张图像相关的 Alt 文本(讽刺的是这篇论文的标题中恰好有 Alt-text 一词):

  • https://github.com/google-research-datasets/conceptual-captions/issues/6;

  • 拒绝共享图像/镜像链接(尽管我认为这关乎法律问题,但仅有该数据集的几百张图像,社区很难对比不同模型):

  • https://github.com/google-research-datasets/conceptual-captions/issues/1

发帖人表示对此很难过。他希望社区意识到数据集论文是一项重大责任,如果存在阻挡数据集共享的法律问题,那么可以基于私人数据发表论文,但是基于同样的模型或整个数据集举办挑战赛的行为不太好。

此帖发出后,引发了网友的大量讨论。有网友认为谷歌这么做没什么问题,他们的任务是分享研究、把研究成果作为自己的优势,而不是相反。但评论中更多的是对这种行为的反对。

反对此类行为

网友_michaelx99 表示:

DeepMind 发表的好几篇论文也是仅依靠论文本身完全无法复现。这让我意识到发表在 arXiv 或企业网站上的「论文」并不是真正的发表,其主要目标是表明该企业已经具备了某种能力。我并不是说所有大企业在线发表的论文都这样,但其中一些确实如此。

ModernShoe 表示:

我曾听吴恩达谈论商业如何利用 AI 盈利。他说企业应该保护训练/测试数据集,而不是保护某个算法。或许这与数据集论文不公布数据集有某种关系?

网友 epic:

这种行为不利于科学和机器学习的发展。虽然我们理解谷歌不发布数据集的原因,但这种行为仍然是不好的。尤其是数据集论文,在没有数据的情况下复现研究及其困难。有能力的组织和人们应该作为表率来引领社区,而不是相反。

网友 SkinnyJoshPeck:

这是对机器学习机器学习专家的海量需求的后果吗?我在一家大企业工作,与机器学习科学家接触较多,他们当中一些人缺乏对科学方法的基本尊重,这令我非常惊讶。我认为这并非技巧的缺乏(一些研究已经发表),而是不明白「可观的结果未必是准确、有效的」。

我的大学专业是数学,而且专门学习了代数。我了解表示论和代数几何,因此我知道大多数模型和技术的底层数学基础,这些让我对这些专家能够坐在现在的岗位上感到惊讶。

复现性

网友 GoAwayStupidAI:

复现性是科学的重要标志。没有相关数据、结果无法复现的研究都是垃圾。

网友 kemfic:

论文就应该是可复现的。如果不能,那么期刊就不应该接收它们。

网友 duckbill_principate:

让我觉得困扰的不是共不共享模型、代码或者数据集的问题,而是在这种事情发生的时候论文仍然被接收了。这某种程度上是同行评审的失败,其责任则属于我们每一个审稿人,因为这样的论文往往是基于信任或权威而被接收的(我们知道尽管有双盲评审,但我们不难推断出某些论文一般会来自哪个研究组)。这更像是广告而不是科学。

网友 duckbill_principate:

在我实现的 20 多篇论文中,5 篇存在部分或完全影响研究结果验证的错误/bug。而这些论文都是顶会上经过同行评审的论文。

我认为这是学术丑闻。

有些案例中问题被揪出来,作者进行了修改。但即使是在这种比较好的场景中,修改数字后的论文(可能使用了全新的参数搜索!)静悄悄地出现在 arXiv 上,而发表在会议上的论文并没有修改,更不会被撤回。为什么?大家都知道原因,也熟悉那些辩护理由:「尽管我们的结果不如预想中的好,但我们认为这项技术非常棒,非常有前途……」不管是从数学角度,还是从没有所谓的「当前最优结果」的论文不该被接收的角度,这种说法都非常糟糕。

网友 habanero_ass_fire 认为:

OpenImages 的图片是从网上获得的,其他几个比较知名的数据集也是如此。就法律意义上来看,图片的作者拥有版权,因此论文作者是不能共享这些图片的。另外,无效的链接在现实中经常发生。因此我对这种没有公开数据集的行为没有意见,只要他们能够分享一个预训练模型即可;如果你可以依照论文训练出自己模型,即使没有预训练模型也不会让论文无效。

但这立刻遭到网友 duckbill_principate 的反驳:

如果你能够训练出一个模型精确复现,那没问题。但如果你曾试图复现论文时就会明白,实际情况往往是,即使那些发布了自己代码且提供定义清晰且可用的数据集的论文,复现的结果也往往是不可预测的。他们是公布了自己的代码和参数,但却可能没有说明自己的训练过程;他们公布了训练代码,但却可能遗漏了部分自定义库;他们使用了公共数据集,但却没有明确说明他们对这些数据集做了什么样的预处理;他们公布了代码、数据集,甚至也对此做了大量且详尽的说明,但却可能遗漏一些非常关键的内容,等等不一而足。

事实是,如果没有预训练模型,或者没有对训练过程的完整描述,谈复现性就是一个笑话。

正如网友所说,在没有数据的情况下复现研究及其困难,尤其是数据集论文

关于研究复现的讨论由来已久,前段时间在某篇 CVPR 论文复现出现问题时,大家更是对顶会/期刊论文复现性进行了大量讨论。不少人认为论文复现也应该作为同行评审中的重要部分。有网友表示「总体而言,论文评审过程不包含复现实验结果。评审者不得不在很大程度上依靠作者的诚信」、「同行评审通常更关心论文中描述的方法。潜在的解决办法是要求作者提交现成的实现(如通过 docker)。然而,在哪里运行仍然是一个问题。也许 AWS 资源等可以从提交费用中提取,供评审人员重新运行模型。然后,问题是确保评审人员不会「滥用」资源进行他们自己的实验等。在任何情况下,「通过计算的方法」进行 DL 论文评审都很棘手」。

学术会议对研究复现也很重视。2017 年,ICML「机器学习复现 Workshop」就对这一问题进行过讨论;2018 年,ICLR 举办了复现挑战赛,旨在保证接收论文公布的结果是可靠的、可复现的。此外,为了鼓励可复现性和高质量论文的提交,ICML 2019 在论文提交上做出了一些重要改变,如鼓励提交的论文附带代码,结果的可复现性和代码的易用性将作为论文接收和进一步决策的考虑因素。KDD 2019 的征稿通知中也表明:今年会议采取双盲评审制度,论文接收结果公布之前投稿者不得将论文发布于 arXiv 等开放性平台上。更重要的是,只有在论文中公开研究代码和数据的论文才有资格竞选「最佳论文奖」。

科学研究的复现性非常重要,机器学习社区一贯重视开放性、复现性,而这需要社区人们的维护。上述学术会议的变化无疑将促进研究复现性,鼓励研究人员更加审慎地对待自己的研究、更加开放地共享研究的具体细节。那么具备强悍研究能力和开发能力的大型企业会不会做好表率呢?

参考链接:https://www.reddit.com/r/MachineLearning/comments/agiatj/d_google_ai_refuses_to_share_dataset_fields_for_a/

产业数据集Google AI
1
相关数据
AWS机构

亚马逊网络服务系统(英语:Amazon Web Services,缩写为AWS),由亚马逊公司所创建的云计算平台,提供许多远程Web服务。Amazon EC2与Amazon S3都架构在这个平台上。在2002年7月首次公开运作,提供其他网站及客户端(client-side)的服务。截至2007年7月,亚马逊公司宣称已经有330,000名开发者,曾经登录过这项服务。

相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

推荐文章
暂无评论
暂无评论~