来源

开放数据不一定是好事儿?十大医学领域人工智能的争议性观点

图片来源:pixabay本文编译自长期关注医学领域的知名博客lukeoakdenrayner,作者卢克·奥克登-雷纳(LukeOakden-Rayner)在引言里说道,自己在推特上就相关话题和网友做了大量的讨论,早就想列这样一个清单了,同时卢克也表示这十个观点一定会引起反驳,和已有的主流观点也会有出入和冲突。作为该领域极为出色的作者,卢克究竟对哪些主流看法提出了挑战呢?

1.开放数据并不一定是好事

第一条就是重炮!花费大量真金白银才拿到的独家数据是公司将新产品推向市场参与竞争时的重要筹码。没了这个筹码,那么公司的投资回报率就没那么有保障了。为什么要花费巨资研发一款日后谁都可以坐享其成参与生产的新产品呢?从这个角度说,开放数据反而阻碍了行业的进步。虽然数据共享有助于产出更多的研究论文,但却不会有新产品的诞生。开放数据对于差异化也是巨大的灾难,大家会拼命向着公开数据中最好的那部分做过拟合过拟合,或称过度拟合,是指在拟合一个统计模型时使用过多参数。即使是一个荒谬的模型,只要足够复杂,参数足够多,都可以做到完美匹配数据,译者注。)

2.对于训练模型来说,正常和反常数据交织在一起是巨大的挑战

反常数据,或者俗话说的黑天鹅是无处不在的,以至于你收集的数据永远不可能覆盖所有情况,而且你发现异常数据的嗅觉通常不会那么灵敏(更何况你根本拿不到异常数据)。我猜想,要是一款“正常胸片检测器”上市,那么就会有大量的骨骼肿瘤被漏诊。

3."人工智能"是一个伟大的概念

我们都明白“人工智能”这个词意味着什么,它为这个行业带来了诸多利好和资金,而且坦率来说我们所做的事情就如同魔法一样(就像那句著名的“科技发达到一定程度就是魔法”所说的),你要是认为“AI没什么神奇的”,那你就需要一点孩子般求知欲了:我们可是用数学把声音转化成了意义、把图像转化成了决策的。所以就让我放手去干吧。

4.深度学习对于电子健康档案(Electronic Health Record, EHR)是相当无能为力的

这么说不仅仅是因为深度学习对于EHR非结构化的数据不太灵光(有一件事我很困扰:就因为它们排成了几行几列,就常常被说成是“结构性数据”。其实它们并没有什么可以利用的内部结构!),而且我看不到任何技术突破的迹象。深度学习在图像、文本、声音等等领域大展拳脚,是因为所面对的是特征子集非常有限(也就是说存在空间关系)。EHR 数据就不一样了,毫无内在结构可言(唯一的例外是EHRs的时间序列数据,它们确实有时间结构,或许可以为深度学习所利用)。所以深度学习并不比更简单的机器学习模型效果更好。

5.用户的数据可解释性(数据解释性是一个专业名词,这里可以理解为对数据解释工具的需求)被高估

(图片来源:123RF)

如果你的模型有效,大多数医生会乐于将所有的相关决策交给人工智能来做,而不需要配套的数据解释工具。可解释性方法充其量给临床医生提供了虚幻的安全感(在我看来,可解释性方法其实非常重要,但不是对技术员来说。这些方法大可以成为工具,让我们这些做品质保证的书呆子用来监控和检修AI,以保证系统持续安全)。尽管如此,对于视安全性高于一切的首席信息官(CIO,通常是公司内信息系统的最高负责人)来说,人为的数据解释工作才更有吸引力。因此,目前普遍以热点图的方式做注释的做法多少有些讽刺意味。 

6.如果一支团队只会为任务建立花哨的新模型,它在医学上就取得不了任何进展

如果有人自制了一个模型,而不是利用现有的密集网络/残差网络/卷积网络/初始网络等等,那么他从事的就是机器学习研究,而非医学研究。建立并调试你自己的模型,这个过程意味着你十有八九会对特定的数据做过度拟合,这对良好的医疗系统是一道诅咒。对于使用新颖架构在医学数据中得出的结果,我是相当怀疑的。

7.发布公共代码对医学人工智能研究没有多大意义

它并不能提升高性能系统的重现性,因为若没有一个同样优秀(但内容不同)的数据集,我们就无法验证结果。就算有了共享的数据,在同样的数据上运行同样的代码,也只能证明结果不是编造出来。

8.视觉识别已经相当完善

计算机视觉模型在性能上已经不会再有大的改进。我们会看到数据利用率和监督学习方面的缓慢进步,但是只要投入足够的努力和数据,AI就能在几乎任何一项数据任务上达到人类水平,甚至超越人类。我们已经达到了最小误差。

9.无监督学习没有临床意义

图片来源:pixabay

目前来看,所有可能为临床增添价值的AI都是受到监督的,因为以现在的输入而言,人类的表现已经接近最佳。监督学习的表现越来越好,但它迟早会出差错,而且那肯定比人类的差错严重。当然,在有些情况下,无监督学习能对监督学习起到补充作用,但是要用巨量未标记的数据来解决医学问题,现在还为时过早。  

10.任何AUC(Area under the Curve of ROC,一种模型评价指标)指标低于0.8的系统都不要信任

因为这个数值大致代表了医疗AI系统对非病理性影像特征过度拟合时的表现,这些特征包括X光扫描仪采用了什么模型,或者是哪个技术员拍摄的影像(这些在影像中多少都可以辨认出来)。这些系统多半会成为失败的临床AI系统,因为它们没有概括能力。显然,把这条线划在0.8是把问题过度简化了,但是对于许多普通的医疗任务,这还是一条好用的经验法则。

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业医疗
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

推荐文章
暂无评论
暂无评论~