蒋思源 刘晓坤参与

MURA:斯坦福ML团队开放的大型放射影像数据集与挑战赛

近日,吴恩达及斯坦福 ML 团队开放一项骨骼医疗影像的竞赛,它利用去年 12 月开放的 MURA 数据集尝试在骨骼影像上达到放射科医生的水平。此外,MURA 是最大的开放性放射影像数据集之一,它有助于诊断上肢骨骼疾病。

什么是 MURA?

MURA(肌骨骼放射影像)是骨骼 X 射线的大型数据集,算法的任务是确定一张 X 射线影像是正常还是异常。

肌骨骼(Musculoskeletal)疾病在全世界上影响了 1.7 亿人,是严重长期疼痛与疾病的最常见成因,且每年有 3 千万的急诊部就诊。研究者希望该数据集能帮助医疗影像技术取得显著的进步,且能达到人类专家的诊断水平,从而提升放射科医生的工作效率与放射科的医疗条件。

MURA 是最大的开放放射影像数据集之一,研究者将该数据集提供给社区来举办对应的竞赛,因而能了解模型在医学影像上能不能做得更好。

MURA 使用一个隐藏的测试数据集以官方评估模型的性能。参赛团队可在 Codalab 上提交可执行代码,并在非公开的测试数据集上运行,这样的流程基本能保证测试结果的公平性。下面地址展示了 MURA 的提交与评估过程,只要模型经过官方的评估,测试分数就会显示在排行榜中。

MURA 提交教程:https://worksheets.codalab.org/worksheets/0x42dda565716a4ee08d61f0a23656d8c0/

MURA 是如何收集数据的?

MURA 是肌骨骼放射照片的数据集,它包含了 12173 名患者共计 14863 份研究,共有 40561 份多视图放射影像。每一份都属于 7 种标准上肢放射学研究类型之一,即手指、手肘、前臂、手、肱骨、肩膀和手腕。每一份研究都由斯坦福医学院董事会认证的放射科医生手动标记为正常或异常,这些标注都是 2001 年到 2012 年根据放射诊断学对临床医学影像的解释而完成的。

为了评估模型并获得放射科医生水平的鲁棒性估计,研究者从 6 名经认证的斯坦福放射科医生收集额外的标签,其中包括 207 份肌骨骼研究。放射科医生平均有 8.32 年的从业经验,从业年限的范围从 2 到 25。研究者随机选择 3 个放射科医生构建黄金准则,该准则定义为大多数放射科医生投票的标签。

基线模型是什么?

MURA 的基线使用一个 169 层的卷积神经网络来检测和定位异常症状。模型取某项研究中的上肢的一个或多个视图的照片为输入。在每个视图中,该网络对异常概率进行预测。研究者通过取每张照片的网络输出异常概率的算术平均来计算该研究中的总体异常概率。当该研究中的异常概率超过 0.5 时,模型做出异常的二值预测。

网络使用密集连接卷积神经网络架构,其中每个层和其它所有层都有前向连接,从而使深度网络优化更容易进行。研究者将应用一个 sigmoid 非线性层之后的单个输出替换了最后的全连接层。他们使用类别激活图(Class Activation Map)来可视化放射照片的对模型异常预测贡献最大的部分。

该基线表现如何?

研究者在 Cohen 的 Kappa 统计上评估了该基线,Kappa 统计表达了模型和黄金标准的匹配程度。基线将和放射专家在手指、手腕研究的异常检测上进行性能对比。然而,基线在检测手肘、前臂、手、肱骨、肩膀的异常检测中的性能要稍微低于最好的放射专家,表明该任务为未来研究提供了很好的挑战性问题。

论文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.

论文地址:https://arxiv.org/abs/1712.06957v2

摘要:我们在本文中介绍 MURA,这是一个肌肉骨骼射线照片的大规模数据集,包含 40895 张来自 14982 项研究的照片,其中每项研究的照片都是由放射专家手动标记(正常或异常)。在这个数据集上,我们训练了一个 169 层的密集连接的卷积网络来检测和定位异常症状。六位有专科医师资格的放射专家为 209 项研究构成的测试集提供了额外标记,我们在其上对比了模型和放射专家的诊断表现,发现我们的模型能达到和那些放射专家相当的性能。在对于手指、手和手腕的研究照片上,我们模型的 F1 分数要稍微高于放射专家,但在统计上并不显著;在对于手肘、前臂、肱骨和肩膀的研究照片上,我们模型的 F1 分数要稍微低于放射专家,但在统计上也不显著;预示着该数据集为未来研究提供了很好的挑战性问题。

工程医疗影像斯坦福大学吴恩达计算机视觉
15
相关数据
异常检测技术
Anomaly detection

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

推荐文章