李泽南 李亚洲参与

百度提出NCRF:深度学习癌症图像检测效率再提升

深度学习在医疗图像疾病检测方向上的发展很快,但目前仍面临着易出现假阳性的问题。近日,百度研究人员提出了 NCRF(神经条件随机场)方法,在提升肿瘤图像准确率的同时也减少了假阳性的出现几率。该研究的论文已被即将在 7 月举行的深度学习医疗图像大会 MIDL 2018 接收。

NCRF 项目已经开源:https://github.com/baidu-research/NCRF

目前在医疗领域有很多癌症诊断方法,其中病理学活体检测被认为是最为可信的标准。然而,对病理学切片进行分析并不是一件容易的事,即使对于经验丰富的病理学家而言也是有挑战的事情。一个放大 40 倍的病理切片数字图像通常包含数十亿像素,而在这样大规模的内容里,病理学家有时需要找寻微转移、肿瘤细胞细小群体等早期癌症征兆。这些任务让审查病理切片,而不遗漏任何临床证据成为了一项非常复杂耗时的工作。

随着人工智能的发展,人们已经提出了各种基于深度学习的算法来帮助病理学家有效审查这些切片,并检测癌症转移。由于切片的原始数字图像非常大,大多数算法目前会将图片切割成大量小图片 (patch) 进行处理,如 256×256 像素尺寸的图片——然后训练并使用深度卷积神经网络来对肿瘤细胞和正常细胞进行分类。然而,这种方法有时难以在不知晓周围内容的情况下预测小图片中是否存在肿瘤,特别是在肿瘤/正常区域的边界上,经常会出现假阳性。

图 2 展示了这类方法的困难:

百度研究人员近日提出了一个新的深度学习算法,该方法不仅分析单个小图片,也将图片四周临近的网格一并输入进行肿瘤细胞分析。就像放大图片,看到更大区域从而做出更有置信度的判断一样。在这里,相邻切片之间的空间相关性通过特定类型的概率图形模型(条件随机场)进行建模。整个深度学习框架可以在 GPU 上进行端到端的训练,无需任何后处理过程。

图 3 展示了该算法的架构:

百度研究人员称,通过考虑相邻图片之间的相关性,新算法发生的误报次数少了很多。图 4 展示了在示例肿瘤图片上,新算法与不考虑临近图片的算法之间的预测效果比较。我们可以看到,除了基本的真肿瘤区域以外,新算法的假阳性区域相较基准算法要少很多。

图 4.(a) 原始的完整切片图像;(b) 病理学家注释的图像,白色区域表示癌症转移;(c) 通过之前的算法预测癌症区域,不考虑临近图像块;(d) 通过百度的算法预测癌症区域。

在 Camelyon16 挑战赛测试集上,百度的算法在癌症定位上的得分(FROC)为 0.8096,超越了专业的病理学家(0.7240)和前一个 Camelyon16 挑战赛冠军(0.8074)。此外,百度还在 GitHub 上开源了此算法,希望能够促进病理分析领域的 AI 研究。

这种全新的癌症检测算法有潜力改进病理切片镜检的效率与准确率。这能使得病理学家更加关注算法重点强调的癌症区域,而不是检查整个切片。不过,要综合评估该算法,还需要在更大数据集上做进一步的临床研究。

更多信息可查看以下论文:

注:在数字病理切片中,在 40 倍的放大下一个像素大概长 0.243 微米。微转移一般定义为一组癌细胞最大直径超过 200 微米,也就是大概 823 像素。

论文:Cancer Metastasis Detection With Neural Conditional Random Field

论文链接:https://openreview.net/forum?id=S1aY66iiM

摘要:乳腺癌诊断通常要求通过全切片数字化图像(WSI)对淋巴结癌细胞转移进行准确检测。近期深度卷积神经网络的发展使得医疗影像分析取得了极大成功,尤其是在计算病理组织学方面。由于 WSI 非常大,大部分方法都将整张图像切分成很多小的图像块,再对每个图像块分别进行分类。但是,相邻图像块通常具备空间关联,忽视此类关联可能会导致预测结果不一致。本论文提出一种神经条件随机场(neural conditional random field,NCRF)深度学习框架,来检测 WSI 中的癌细胞转移。NCRF 通过一个直接位于 CNN 特征提取器上方的全连接 CRF,来考虑相邻图像块之间的空间关联。整个深度网络可以使用标准反向传播算法,以最小算力进行端到端的训练。CNN 特征提取器也可以从利用 CRF 考虑空间关联中受益。与不考虑空间关联的基线方法相比,NCRF 框架可获取更高视觉质量的图像块预测概率图。我们还展示了在 Camelyon16 数据集上该方法在癌细胞转移检测方面优于基线方法,在测试集上取得了 0.8096 的平均 FROC 分数。


原文链接:http://research.baidu.com/Blog/index-view?id=104

理论百度医疗医疗影像
1
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术
Back-propagation

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

条件随机场技术
Conditional random field

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章