张倩、蛋酱报道

大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

Kaggle 一项竞赛的讨论页面显示,一个名为「Bestpetting」的冠军团队因作弊被 Kaggle 取消了参赛资格,团队成员还包含一位 Grandmaster。这位 Grandmaster 被永久禁赛,因为有证据表明,他是该作弊活动的关键人物

该团队通过作弊的方式获取了测试集的答案,而且为了让分数看起来更加真实,他们只用了其中一部分答案。

作为最著名的数据科学竞赛平台,Kaggle 成立于 2010 年,并于 2017 年被谷歌收入旗下。迄今为止,这一平台上已经举行了三百多场各种类型的数据竞赛。

很多公司、政府研究机构都会把自己的数据放上来,开放给全球范围内的参赛者,让他们帮助自己建模型。为了提高参赛积极性,他们也会设置一定的奖金,用来奖励模型精度最高的几个队伍,有些竞赛的奖金甚至可以高达百万美元。

于是乎,Kaggle 源源不断地吸引了成千上万的开发者来参加竞赛,许多数据科学家在 Kaggle 上投入了大量的时间和精力。在诸如机场安全、卫星数据分析这类的任务上,不乏数十年经验的优秀团队加入比赛。

机器学习爱好者们心中,Kaggle 是一个灯塔般的存在

为了激励参赛者不断挑战新的难题,Kaggle 设置了一个排行榜,将参赛者分为「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四个等级。

其中,「Novice」、「Contributor」等级最低,注册就能成为「Novice」,添加一些资料、探索一下 Kaggle 并与社区进行一些交流就能升级为「Contributor」。

但从「Expert」开始,参赛者就要实打实地拿出成绩了。要晋升到竞赛的「Grandmaster」,你需要至少获得 5 枚金牌

违反公益初衷的作弊行为

此次被曝作弊的团队参与的是一项预测宠物领养速度的竞赛。研究表明,宠物被领养的速度与它们在网上的照片、描述等信息存在相关性。参赛者的任务就是找出这种相关性,帮助宠物领养机构优化宠物的电子档案,使其看上去更加「可爱」,从而提高被领养的速度,减少「安乐死」的数量。

此次竞赛在去年三月份展开,奖金池总共 2.5 万美元,冠军团队可以获得 1 万美元的奖励。

Kaggle 信息显示,该团队在比赛中存在以下作弊行为:

1. 他们通过作弊的方式获取了私有测试数据的领养速度答案(可能是通过爬取 Kaggle 网站);

2. 这些数据和答案被编码、模糊处理并混入一个 ID 字段,伪装成他们名为「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;

3. 在处理数据时,他们混进来的 ID 字段被解码,答案在预测阶段可以被检索到;

4. 他们只使用了其中一部分被编码的答案,以使分数看起来更加「真实」;

5. 这些经过处理的代码被精心隐藏并混淆在许多嵌套的函数和代码层下,故意被设计成高度不可读和平淡无奇的样子。

一位 Kaggle 网友「Benjamin Minixhofer」最早发现了其中的猫腻,在尝试将这项比赛的几个优秀方案转化为生产系统的过程中,他发觉了冠军方案似乎不太对劲,随后就将这项违规行为报告给了 Kaggle 组委会,组委会也立马展开了相关调查。

在事件曝光后,这位举报者小哥撰写了一个详细文档来说明该团队的作弊行为:https ://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80665 

他说:「这件事破坏了 Kaggle 比赛的公平性,而且我费了半天劲想把他们的方案转化为生产系统,结果竟然是作弊。也许 Kaggle 官方不希望我发表这篇公开了许多私人测试数据的文章,但我希望参赛者们都能从中得到一些启发。」

曾经的 Kaggle Grandmaster 被终身禁赛

确认作弊行为后,Kaggle 组委会取消了冠军团队的资格,目前已经重新修改了排行榜。不过当时颁发给冠军团队的 10000 美元奖金已经覆水难收。

这件事的问题在于,「预测宠物领养速度」本是一个公益性的赛题,初衷也是挽救小动物的生命。在这样的前提下,团队仅仅为了经济利益而采取作弊手段,更令人不齿。

此前也发生过获奖者被取消资格的事情,但都是在比赛前。这是第一次在比赛结束 9 个月之后才被挖出来的作弊行为,也是 kaggle 平台创立以来,第一次有人因为作弊被彻底取消参赛资格。

被举报团队中的 Kaggle Grandmaster 同时也在硅谷一家开源软件公司 H2O.ai 任数据科学家职位。

这个「Former」也是耐人寻味。

这家公司主要的产品是一款数据科学机器学习开源平台,叫做「H2O」,为许多世界 500 强企业提供人工智能产品解决方案。

事发后,公司已经作出了回复,称「已进入调查程序,此人与我司不再有任何关系」。

先是被禁赛名誉扫地,接着又面临被公司开除的命运,有人开始同情这位 Grandmaster,觉得这种做法未必太过严苛,惩罚的公平性也有待商榷。也有人因为 Kaggle 的严厉做法而被圈粉,觉得这么做是理所当然。而且 ta 认为,欲戴王冠,必承其重,Grandmaster 本身就对遵守规则负有更大的责任。

但也有人爆料称,这位 Grandmaster 在 Kaggle 比赛中出现不端行为已经不是第一次了。在去年的一项谷歌地标检索竞赛中,他们也有类似的行为并被取消了参赛资格。

吃瓜通道:https://www.kaggle.com/c/landmark-retrieval-2019/discussion/95136

目前,这个帖子已被删除,但从评论区我们依然可以大体还原争论的焦点所在:Kaggle 在这项比赛中出现了数据泄漏问题,该团队发现了这一漏洞并充分利用,以此为优势取得了很好的结果。

数据泄漏问题在各种数据竞赛问题中屡次出现,有些团队发现之后会将这一问题报告给组委会。如在 Kaggle 的某个 NLP 比赛中,一些团队的准确率达到了 100%(NLP 领域出现这种准确率是非常不可思议的)。有人发现了泄漏的数据集并将其合并提交了上去。

但也有团队会利用其作为秘密武器取得高分。对此,批评者一致认为这种做法是不道德的,对之后的竞赛和参赛者都没有借鉴意义,也不利于科学的进步。

对此,这位 Grandmaster 辩解称,他们没有向大众隐藏自己的方法,所以没有违反规则,而且是诚实的行为。至于为什么利用漏洞,他解释说,「如果比赛本身就有漏洞,那总会有人去利用。不用的话就会失去优势,得到令人失望的结果。所以摆在参赛者面前的只有两个选择:要么退赛,要么利用漏洞。

由此可见,这种作弊行为的不断出现不只是参赛者个人道德的问题,赛事的设计者也负有不可推卸的责任。参赛者的道德参差不齐、难以把控,只有在赛事设计上多下工夫才是解决问题的根本方法。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/
https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436

工程作弊数据竞赛数据科学Kaggle
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章
暂无评论
暂无评论~