张秋玥编译

美国科学促进会:机器学习“正在导致科学危机”

来自休斯顿莱斯大学的Genevera Allen博士说,对这一体系日益增长的使用导致了“科学危机”。

她警告科学家,如果不改进技术,他们就会浪费时间与金钱。

越来越多的科学研究涉及使用机器学习软件来分析已经被收集的数据——从生物医学研究到天文学的许多学科领域都是如此。所使用的数据集非常庞大,并且昂贵。

再现性危机

但是,根据Allen博士的说法,他们提出的答案很可能是不准确甚至错误的,因为软件识别到的是仅存在于该数据集中而非现实世界中的规律。

“通常人们也不会发现这些研究并不准确,直到有人在一个真正的大型数据集上应用这些技术,并说'天哪,这两项研究的结果并不一致'”,她说。

“现在人们普遍认识到科学中的再生性危机了。我冒昧地说一句,这一危机很大一部分都来自于科学中机器学习技术的使用。”

科学中的“再现性危机”指的是,当另一组科学家尝试相同的实验时,许多研究结果压根无法被再现。这意味着最初的结果是错误的。一项分析表明,在世界范围内进行的生物医学研究中,高达85%是浪费精力。

这是一场已经持续了20年的危机,缘起于实验设计得不够好,无法确保科学家们不会自欺欺人、只看到自己想得到的实验结果。

错误的规律

Allen博士表示,机器学习系统和大型数据集的使用加速了危机。这是因为机器学习算法专门用于在数据集中查找有趣的东西,因此当他们在大量数据中进行搜索时,不可避免地会找到某种规律。

“问题是,我们真的可以相信这些发现吗?”她告诉BBC新闻。

“这些新发现是真实的吗?它们能够代表科学吗?它们是否可重复?如果我们有一个额外的数据集,我们能够在其上看到相同的科学发现或原理吗?不幸的是,答案通常是否定的。”

Allen博士正与休斯敦贝勒医学院的一组生物医学研究人员合作提高他们结果的可靠性。她正在开发下一代机器学习和统计技术;该技术不仅可以为科学发现筛选大量数据,还可以报告结果有多高的不确定性以及再现性。

“收集这些庞大的数据集非常昂贵。我告诉科学家,与我合作的话,你的成果可能需要更长时间才能发布,但最终你的结果将经得起时间的考验。”

“它将帮助科学家节约资金。此外,帮助避免前沿科技误入歧途也是非常重要的。”

相关报道:

https://www.bbc.com/news/science-environment-47267081


大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业机器学习可解释性
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

推荐文章
暂无评论
暂无评论~