Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

shooting 杜伟编译

早发现早治疗系列之乳腺癌:DL模型为患者争取五年治疗时间

AI 与医疗的结合已是当下流行的一大趋势之一。我们之前写过关于 AI 帮助诊断皮肤病、阿茨海默症等疾病。相比之前搭建 AI 医疗图像筛查平台检查乳腺癌,此次 MIT 的研究人员创建深度学习模型,帮助患者提前五年预测乳腺癌,及早确诊、及早治疗。

虽然遗传学和现代影像学已经取得重大进展,但诊断结果还是会令大部分乳腺癌患者感到震惊。对一些患者来说,诊断结果来得太迟了。

确诊越晚,意味着更激进的治疗手段、不确定的治疗结果以及更高的治疗费用,往深一点说,是更高的死亡风险。因此,识别患者一直是乳腺癌研究和有效早期检测的重点。

基于此,由 MIT 计算机科学和人工智能实验室(CSAIL)和马萨诸塞州总医院(MGH)研究人员组成的团队创建了一个深度学习模型。该模型能够根据乳房 X 光照片预测患者未来五年内是否可能会得乳腺癌。

该模型是用来自 6 万多名 MGH 患者的乳房 X 光照片训练的,且照片结果是已知的(即照片中的人是否患有乳腺癌)。结果,该模型学习到了乳房组织中恶性肿瘤征兆的细微模式。

深度学习模型利用了全视野 X 光照片和传统风险因素,其准确率高于当前的临床标准 Tyrer-Cusick 模型(第 8 版)。

下面,我们看一下从论文中摘取的部分研究细节。

论文地址:https://pubs.rsna.org/doi/pdf/10.1148/radiol.2019182716

研究亮点

深度学习模型基于乳房照片识别乳腺癌的高风险患者,并将 31% 未来可能患上乳腺癌的患者置于最高风险等级,而当前 Tyrer-Cuzick 模型仅将 18% 的患者置于此风险。

该混合深度学习模型对白人和非裔美国女性来说同样准确(AUC 均为 0.71),而 Tyrer-Cuzick 模式则不同,白人女性和非裔美国女性的 AUC 分别为 0.62 和 0.45。而且该模型的 AUC 改善对白人(P < .001)和非裔美国女性(P < .01)来说很明显。

将该模型与乳腺密度进行比较后发现,乳腺密度低且被模型评估为高风险的患者得乳腺癌的几率是乳腺密度高且被模型评估为低风险患者的 3.9 倍。

研究方法

数据收集

在 2009 年 1 月 1 日至 2012 年 12 月 31 日间,研究人员在一家大型三甲学术医疗中心收集了 60886 名患者的连续数字筛查乳房 X 光照片。对于每名患者,研究人员通过医疗保健系统内的五家医院获得结果,并辅以乳腺 X 光信息系统电子病历(Magview Version 8.0.143; Magview, Burtonsville, Md)中的病理发现。

他们从电子病历中供应商输入的信息和患者输入的问卷中收集到了详细的风险因素,并将每次乳房 X 光检查与乳房 X 光检查时出现的患者风险因素联系起来。

在这 6 万多名患者中,研究人员排除了其中 21328 名,因为她们没有足够的后续检查或者乳房中有另一种癌症。然后将剩下的 39 558 名患者随机分配:31806 名患者的 X 光照片用来训练模型,3804 名用来验证模型,而 3978 名用来测试模型。

图 1:样本选择流程图。从 2009 年 1 月 1 日到 2012 年 12 月 31 日,连续进行了 134,924 次乳房 X 线筛查。如果检查后在 5 年内确诊了乳腺癌,则被定义为阳性,否则被定义为阴性。为了将测试集限制在阴性筛查人群,研究人员排除了检查后 1 年内确诊为乳腺癌的患者。

模型开发和评估

附录 E1 中有关于所有开发模型、模型选择和校准的详细信息。研究人员使用 IBIS 乳腺癌风险评估工具的 Command-Line 版本获得了 TC 风险评估结果(版本 8)。

附录 E1 地址:https://pubs.rsna.org/doi/suppl/10.1148/radiol.2019182716

他们使用 scikit-learn(0.19.1 版本)将仅考虑风险因素的模型实现为 logistic 回归模型(即风险因素 logistic 回归模型「RF-LR」)。然后,训练 RF-LR 模型,从而在乳腺筛查时评估患者的风险因素,判断该患者是否会在五年内患上乳腺癌。

针对仅包含图像的深度学习模型,研究人员使用 PyTorch(0.31 版本)来实现一个深度卷积神经网络(ResNet18)。在乳房 X 光照图像素为 1664×2048 的情况下,DL 模型被训练用于预测患者是否会在五年内患上乳腺癌。DL 模型在全视场中使用整个乳房图像。

此外,研究人员还开发出了一个混合 DL 模型,以结合 RF-LR 模型中使用的图像信息和风险因素。在评估模型时,他们计算了曲线下面积(AUC)。

接着,研究人员针对下列子组计算了每一模型的 AUC:美国白人和非裔美国女性、绝经前后女性以及有和没有乳腺癌或卵巢癌家族史的女性。在评估模型捕捉长期未来风险的能力时,他们又计算了每一模型的 AUC,以区分三至五年内患上乳腺癌和五年内没有患上乳腺癌的患者。

混淆矩阵分析

研究人员利用混淆矩阵计算结合不同乳腺密度和混合 DL 风险的检查结果。测试集中的每一项检查按乳腺密度(行)和混合 DL 风险(列)置于单元格中,其中行对应稀疏(乳房 BI-RADS 分级中的 a 级和 b 级)和密集(乳房 BI-RADS 分级中的 c 级和 d 级),列对应按照混合 DL 排名的风险最低 50%(患上乳腺癌的风险最低的 50% 患者)和风险最高 50%(患上乳腺癌的风险最高的 50% 患者)的检查。在每个单元格中,他们记录下了五年内患上乳腺癌的检查比例。

接着,他们重复类似分析与 TC 模型进行比较,其中行表示按 TC 模型的低风险、中度风险和高风险(即患者得乳腺癌的风险高低)(各三分之一),列表示按混合 DL 模型的低风险、中度风险和高风险(各三分之一)。最后,他们给出了混淆矩阵中每个单元格的示例乳房 X 光照片。

统计分析

研究人员用 R 项目(R Project for Statistical Computing)中的 pROC 包将 AUC 和 DeLong 测试进行了比较(P < .05 表示统计重要性),并使用 scikit-learn(0.19.1 版本)进行所有其它的统计分析。他们计算了在 5000 个集群 bootstrap 样本的统计数据,以获得置信区间

研究人员为训练、验证和测试集生成了可用风险因素信息和结果的详细分类,如下所示。TC、RF-LR 和混合深度学习模型使用的风险因素包括年龄、体重、身高、初潮年龄、绝经状态、乳腺癌和卵巢癌的详细家族史、BRCA 突变状态、非典型增生史、小叶原位癌史和乳腺密度。作为训练和验证样本的 80243 位患者中,有 3045 位患者(3.8%)在 5 年内确诊为乳腺癌;而作为测试集的 8751 位患者中,有 269 位患者(3.1%)在五年内被确诊为乳腺癌。

入门MIT乳腺癌深度学习模型
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

混淆矩阵技术

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。 这个名字源于这样一个事实,即很容易看出系统是否混淆了两个类。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

推荐文章
暂无评论
暂无评论~