近日,百度研究院发表论文提出一种名为“神经条件随机场”的全新病理切片分析算法,将肿瘤识别定位准确率大幅提高。在公开数据集 Camelyon 16大赛测试集上,该算法的肿瘤定位 FROC 分数达到0.8096,超过专业病理医生水平以及由哈佛和麻省理工学院联合团队所保持的最好成绩。
除了病理学切片分析方面的研究,百度还在积极探索 AI 在眼底影像、放射影像、以及智能问诊等其他一些医疗领域的应用。
一直以来,病理切片分析都是癌症诊断中的黄金标准。但是即便对于经验丰富的病理医生来说,病理切片的阅片流程也十分困难复杂。一张40倍放大的电子化病理切片通常由超过十亿个像素点组成,磁盘空间大小超过1GB。
然而淋巴结附近微转移肿瘤细胞群可能最小只有不到1000像素的直径。而一旦发现微转移肿瘤细胞群,病人的治疗方案和预后可能就会有极大差别。因此,详尽的阅读病理切片,且不漏掉任何一处具有临床价值的病灶,如同大海捞针,是一项十分复杂和耗时的任务(如图一所示)
图一
为了帮助病理医生更有效地阅读病理切片,研究人员提出了许多深度学习算法,来预测病理切片中的肿瘤细胞区域。由于原始病理切片的图片尺寸十分庞大,绝大部分深度学习算法只能将每张病理切片剪切成大量尺寸小些的图块,比如256x256像素。这样经典的深度卷积网络就可以被用来训练及预测每张图块是否是肿瘤区域。
然而在不知道图块周边区域的情况下,仅凭单张图块,有时候很难预测其是否为肿瘤区域,尤其是在肿瘤与正常组织交界部位。由此产生的假阳性也十分显著,如图二所示。
图二
当病理医生碰到这种困难的情况时,通常会缩小当前感兴趣的图块,以观测周边区域,作出更准确的判断。类似的,百度研究院提出一种全新的深度学习算法,一次性输入一组3x3的图块,并联合预测每一张图块是否有肿瘤区域。图块之间的空间关系可以通过一种名为“条件随机场”的概率图模型来模拟。整套算法框架可以在 GPU 上进行端到端的训练,而不需任何后处理的步骤(如图三所示)。
图三
由于考虑到了相邻图块之间的空间关系,该算法让假阳性得以大大降低,算法预测的肿瘤区域也更加平滑(如图四所示)。对比之前的算法,这种算法除了真实肿瘤区域外,几乎没有引入任何其他假阳性区域。
图四. (a) 原始病理切片; (b) 病理医生标注,其中白色部分为肿瘤区域; (c) 以前算法预测的肿瘤区域; (d) 百度研究院“神经条件随机场”算法预测的肿瘤区域。
在 Camelyon 16大赛的测试集上,“神经条件随机场”算法获得了高达0.8096的肿瘤定位 FROC 分数,不仅显著超越了专业的病理医生水平(0.7240),也超过了之前大赛的最好成绩(0.8074)。同时,百度研究院也在 Github 上开源了整套算法代码,以便其他研究人员在此基础上进行更深入的研究,促进人工智能在医学图像分析领域取得更加长足的发展。
在提高病理切片检测的效率、准确性上,这种新的肿瘤检测算法拥有很大潜力。它让病理学家能更聚焦由算法突出的肿瘤区域,而不必搜索整个切片。当然,对算法的全面评估,也需要更大的数据集来做进一步临床研究。