谷歌使用深度学习帮助病理学家检测癌症,算法得分高达89%

在检查完病人的生物组织样本之后,病理学家的报告通常会成为许多疾病诊断中的黄金标准。特别是在癌症诊断中,病理学家的诊断对病人的治疗有着极大的影响。检查病理切片是一件非常复杂的任务,需要多年的培训从而掌握专业知识、获取经验。


即使经过了如此密集的培训,不同的病理学家对同一病人可能给出相当不同的诊断,从而导致误诊。例如,诊断同样形式的乳腺癌上的一致率(agreement)只有 48%,几乎和前列腺癌一样低。为了做出准确诊断而需要检查如此大量的信息,缺乏一致率也无可厚非。病理学家要负责检查切片上的所有可见的生物组织。然而,每个病人都会有许多切片,在进行 40 倍放大时每个切片都有 100 多亿的像素(10+gigapixels)。想象一下要浏览 1000 多个百万像素的图片,还要为每个像素负责。不用说,这要覆盖大量的数据,而给的时间往往是有限的。


为了解决时间有限和诊断不一致的问题,我们研究了如何将深度学习应用到数字化病理学中,通过创造自动检测算法来自然地补充病理学家工作流。我们使用由 Radboud 大学医疗中心提供的图像训练算法,这些训练数据也曾被用于 2016 年 ISBI Camelyon 挑战赛,而该算法经过优化可来确定是扩散到淋巴结的乳腺癌还是扩展到临近乳房的乳腺癌。


结果如何?标准的像是 Inception(又叫做 GoogLeNet ) 这样的现成深度学习方法对以上两个任务都有效,尽管产生的肿瘤概率预测热点图有点噪音。经过额外定制化之后,包括训练神经网络在不同放大倍数的图像上进行试验(很像病理学家所做的),我们表示是有可能训练一个相当于或超越病理学家(他们试验切片的时间没有限制)表现的模型。


2-1.jpg

左:两个淋巴结活组织检查的图像;中:较早之前我们的深度学习肿瘤检测的结果;右:目前的结果,可看到两者之间噪声(潜在的假正例)的减少


事实上,算法产生的预测热点图已经有了很大的改进,算法的 FROC 得分达到了 89%,大大超过了病理学家无时间限制进行诊断的得分(73%)。我们并不是唯一一家看到它的潜力的团队,其他团队在同一数据集上也得到了高达 81% 的结果。更激动人心的是,我们的模型泛化非常好,即使是在不同医院使用不同扫描仪得到的图片上。想要了解更多,可参考我们的论文《Detecting Cancer Metastases on Gigapixel Pathology Images》。


2-2.jpg

2-3.jpg

淋巴结活组织检查特写图。该组织包含乳腺癌转移和巨噬细胞,看起来像是肿瘤但却是良性的正确组织。我们的算法成功的识别了肿瘤区域(亮绿),并未被巨噬细胞所迷惑。


虽然这些结果惊人,但还是要考虑以下重要的提醒:


  • 像大部分标准一样,FROC 定位得分(FROC localization score)并不完美。在这里,每个切片有一些预定义的平均假正例的情况下,FROC 得分被定义为敏感性(sensitivity)。病理学家做出假正例的情况相当罕见(把正常细胞误诊为肿瘤)。例如,上面提到的 73% 的得分对应 73% 的敏感性,以及 0 个假正例。与之对比,我们算法的敏感性在更多假正例的情况下会上升。每个切片有 8 个假正例的情况下,我们算法的敏感性达到 92%。

  • 这些算法在之前训练过的任务中,表现良好,不过,尚缺乏人类病理学家的知识广度和经验——比如,识别其他不正常情况的能力,而之前没有详细训练过该模型对这些情况进行分类(比如,发炎过程,自身免疫疾病以及其他类型的癌症。)

  • 为了确保最佳临床效果,还需要将这些算法吸收到病理学家的工作流程中去,完善这一流程。我们的愿景是,诸如这些算法能提高病理学家的工作效率和诊断的一致性。比如,通过检查排在前面的预测肿瘤区域(包括每个切片有 8 个假正例的区域),病理学家可以降低假率的未检出率(也就是没有被监测到的肿瘤)。另一个例子这些算法能够让病理学家简单而准确地测量肿瘤大小,这一因素与预后 (prognosis) 有关。


训练模型知识将有趣的研究成果转化为真实产品的第一步。从临床有效到官方批准,还有长的路要走——不过,我们起了一个好头,也希望通过成果共享,加速这一领域的发展。

入门
1
暂无评论
暂无评论~
返回顶部