Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

神经网络诊断皮肤癌超越人类专家?来自医疗界的这篇论文给出了证明

今日,一篇关于皮肤癌诊断的文章发表在医疗期刊《肿瘤学年鉴》(Annals of Oncology)上,这篇出自医疗界高级管理医师的研究首次表明:深度学习卷积神经网络(CNN)在检测皮肤癌方面的表现优于有经验的皮肤科医生。对比对象是来自 17 个国家的 58 位皮肤科医生,其中包括 30 位专家。

这是人工智能又一次在医疗图像识别上实现「超越人类」的水平。尽管如吴恩达这样的著名机器学习学者领导的 AI 医疗影像研究也正在受到质疑,但随着技术的发展,越来越多基于人工智能的医疗成果正在出现,此类技术或许很快就可以帮助我们更好地应对疾病。

研究人员首次表明,深度学习卷积神经网络(CNN)在检测皮肤癌方面的表现优于有经验的皮肤科医生。

今天发表在国际著名癌症期刊《肿瘤学年鉴》(Annals of Oncology)上的一项研究中,德国、美国和法国的研究人员使用 10 万多幅恶性黑色素瘤(最致命的皮肤癌)和良性痣的图像训练了一个 CNN 来识别皮肤癌。他们将其诊断与 58 位国际皮肤科医生的诊断进行了比较,发现 CNN 比皮肤科医生漏诊的黑色素瘤更少,误诊良性痣的几率更低。

CNN 是一种人工神经网络,受到大脑中神经细胞(神经元)相互连接并对眼睛看到的东西做出反应时的生物过程的启发。CNN 能够从它「看到」的图像中快速学习,并根据所学知识自学来提高其性能(这一过程被称为机器学习)。

这项研究的第一作者,德国海德堡大学皮肤科高级管理医师 Holger Haenssle 教授解释说:「CNN 的工作原理就像一个孩子的大脑。为了训练它,我们向 CNN 展示了 10 万多幅恶性皮肤癌和良性痣的图像,并标出每幅图像的诊断结果。我们仅用了皮肤镜图像,即以 10 倍放大倍率成像的病变图像。CNN 通过学习每幅训练图像提高了区分良性和恶性病变的能力。

「训练结束后,我们借用海德堡大学图书馆的数据创建了两套从未用于训练的测试图像,因此 CNN 对此一无所知。一组 300 幅图像的数据集专门用来单独测试 CNN 的性能。在此之前,我们选择了 100 种最难判断的病变来测试真正的皮肤科医生,并与 CNN 的结果进行比较。」

来自世界各地的皮肤科医生受邀参加,17 个国家的 58 位专家同意参加会议。其中 17 人(29%)表示他们在皮肤镜检查方面的经验不足两年,11 人(19%)表示他们拥有 2 至 5 年的经验,30 人(52%)表示他们拥有 5 年以上的经验。

开始时,这些医生被要求仅根据皮肤镜图像(I 级)诊断恶性黑色素瘤或良性痣,并决定如何处理该状况(手术、短期随访或不需要采取行动)。四周后,他们拿到了患者的临床信息(包括年龄、性别和病变位置)和相同的 100 例特写图像(II 级),并被要求再次诊断并作出决定。

在 I 级中,皮肤科医生准确地检测到平均 86.6% 的黑色素瘤,正确地识别出平均 71.3% 的非恶性病变。然而,当 CNN 与医生水平持平,即正确识别出 71.3% 的良性痣时,它检测到 95% 的黑色素瘤。在 II 级中,皮肤科医生的表现有所提高,准确诊断出了 88.9% 的恶性黑色素瘤和 75.7% 的非恶性病变。

「CNN 漏诊的黑色素瘤更少,表明它比皮肤科医生有更高的敏感度,并且它将良性痣误诊为恶性黑色素瘤的次数也更少,这意味着它的专业性更强;这将帮我们省去更多不必要的手术。」Haenssle 教授说。

「当皮肤科医生接收更多 II 级的临床信息和图像时,他们的诊断结果得到提升。然而,CNN 仅使用皮肤镜图像,并且没有接收额外的临床信息,仍然超越了医生的诊断能力。」

专业的皮肤科医生在 I 级中能超越经验较少的皮肤科医生,在检测恶性黑色素瘤中表现得更好。然而,他们做出准确诊断的平均水平在两个等级中仍然低于 CNN。

「这些发现表明深度学习卷积神经网络在检测黑色素瘤的任务中有能力超越皮肤科医生,包括那些受过大量训练的专家。」他说。

恶性黑色素瘤的发病率越来越高,全世界每年估计有 232000 名新病例和大约 55500 名死亡病例。如果能在早期检测出来是可以被治愈的,但很多病例仅在癌症进一步恶化和更难治疗的时候才被诊断出来。

Haenssle 教授说:「我曾经参加一个研究项目将近 20 年,它旨在改善黑色素瘤在可治愈阶段的早期检测。我的团队和我聚焦于非侵入式技术,希望帮助医生在执行皮肤癌检查时不漏诊黑色素瘤。当发现近期关于深度学习算法在特定任务上超越人类的报告时,我立刻意识到可以在诊断黑色素瘤上探索这些人工智能算法。」

研究者并没有设想用 CNN 取代皮肤科医生诊断皮肤癌,但可以将其作为一项额外辅助技术。

「这种 CNN 技术有望在皮肤癌检查中辅助帮助医生决定是否要做活检病变。大多数皮肤科医生已经使用数字皮肤镜系统来对病变进行拍照、归档和跟进。然后 CNN 可以轻易和快速地评估已保存的影像,得到黑色素瘤概率的『专家意见』。我们目前正计划前瞻性研究来评估 CNN 对医生和病患的现实影响。」

该研究有一定的局限性,包括:皮肤科医生是在一个人工环境中,他们知道自己没有作出「生死」攸关的决定;测试集没有涵盖所有类型的皮肤损伤;非白种人皮肤类型和遗传背景的有效图像较少;事实上,医生可能不会一直遵循他们不信任的 CNN 的建议。

在随后的社论 [4] 中,Victoria Mar 博士(澳大利亚墨尔本莫纳什大学)和 H. Peter Soyer 教授(澳大利亚布里斯班昆士兰大学)写道:「目前,黑色素瘤的诊断准确性取决于治疗医生的经验和培训。……Haenssle 等人……已经表明使用卷积神经网络的计算机算法优于所测试的 58 名皮肤科医生中的大多数……这表明人工智能保证了更标准化的诊断准确性水平,使得所有人,无论他们住在哪里或看哪个医生,都能够获得可靠的诊断评估。」

他们强调了 AI 在成为临床标准之前需要解决的一些问题,包括在手指、脚趾和头皮等部位的黑色素瘤难以成像,以及如何训练 AI 充分识别非典型和患者没有发现的黑色素瘤。

他们的结论是:「目前,没有什么技术可以替代彻底的临床检查。然而,2D 和 3D 全身摄影能够捕获大约 90%~95% 的皮肤表面。鉴于成像技术的指数发展,我们设想自动诊断迟早将改变皮肤病学的诊断模式。但是,要将这一激动人心的技术安全地应用到常规临床护理中,还有很多工作要做。」

论文:Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists

论文链接:https://academic.oup.com/annonc/advance-article/doi/10.1093/annonc/mdy166/5004443

摘要

背景

深度学习卷积神经网络(CNN)可能促进黑色素瘤检测,但是仍缺乏 CNN 与大量皮肤科医生诊断表现的对比数据。

方法

研究者使用皮肤镜图像和对应诊断结果训练谷歌的 Inception v4 CNN 架构。在对比横断面研究中,研究者使用了包含 100 张图像的测试集(I 级:只有皮肤镜图像;II 级:皮肤镜图像和临床信息)。研究中主要的衡量指标包括:敏感度、特异性和 CNN 对病灶进行诊断分类(二分类)的 ROC 曲线下面积(AUC),以及 58 名国际皮肤科医生。次要指标包括皮肤科医生管理决策的诊断效果,以及他们的不同诊断表现。此外,CNN 的表现还与 2016 生物医学成像国际会议(ISBI)挑战赛中的 top-five 算法进行了对比。

结果

在 I 级诊断中,皮肤科医生对病变分类的敏感性和特异性的平均得分(±标准差)分别为 86.6% (±9.3%) 和 71.3% (±11.2%)。获得更多临床信息后(level-II),得分分别提升到了 88.9% (±9.6%, P = 0.19) 和 75.7% (±11.7%, P < 0.05)。相比于皮肤科医生在 I 级、 II 级的特异性与敏感性得分,CNN 的 ROC 曲线显示出更好的特异性(82.5%)。CNN 的 ROC 曲线下面积要比皮肤科医生的平均 ROC 面积(0.86 vs 0.79, P < 0.01)大。CNN 的得分接近 ISBI 2016 挑战赛的 3 大顶级算法结果。

结论

我们首次对 CNN 与国际皮肤科医生团队(共 58 位,其中包括 30 位专家)的诊断表现进行了对比。大部分皮肤科医生的表现都不如 CNN。有了 CNN 图像分类辅助,任何内科医生(无论经验多么丰富)都有可能从中受益。


原文链接:https://medicalxpress.com/news/2018-05-machine-ai-dermatologists-skin-cancer.html

理论医疗医疗影像皮肤癌
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~