迁移学习是指把从一个域(源域)学习到的知识迁移到另一个域(目标域)的机器学习方法。印度班加罗尔 GE Global Research 的研究者研究了将从自然图像中学习到的特征迁移到医疗图像检测任务上的问题。机器之心技术分析师对该研究进行了解读,本文为解读的中文版。
论文地址:https://arxiv.org/pdf/1704.06040.pdf
1、引言
迁移学习是机器学习领域内一个流行的主题,尤其是当缺少大量训练数据时。这篇论文系统性地研究了可以如何将在 ImageNet 上针对图像分类任务训练的卷积神经网络用于医疗图像——更确切地说,是用于针对“肾脏检测”问题的超声图像。
2、方法
在这项研究中,研究者使用了图 1 所示的 CaffeNet 作为特征提取器来研究迁移学习的过程。但他们仅为检测任务使用了图 1 中 fc7 层之后的特征,其具有 4096 个维度。三种提取出的特征类型如下:
CaffeNet_FA(全网络适应):整个网络的权重都会根据肾脏图像样本进行更新和微调。
CaffeNet_PA(部分网络适应):保持 conv1 和 conv2 的权重不变,根据肾脏图像样本更新其它层的权重。
CaffeNet_NA(零网络适应):保持整个模型的所有权重都不变。
为了与用于医疗图像检测问题的传统方法进行比较,他们还提取了这些肾脏图像样本的 Haar 特征(具有大约 2000 维)作为分类的输入。
3、实验和结果
研究者使用了两个验证指标:1)定位失败的数量,即检测得到的肾脏 ROI 和基本真值图像块之间的 Dice-Index 低于 0.80 的图像的数量;2)检测准确度。为了比较不同类型的特征,研究者训练了另一个二元分类器,这是一个梯度提升机(GBM:Gradient Boosting Machine)。
表 1 给出了整个定量分析结果:
很显然,从一个预训练的 CNN 提取的特征能对后续的分类任务有更大的贡献。即使没有微调,CaffeNet_NA 也能在失败数量同等时得到比 Haar 特征更高的准确度。两种特征融合不仅能实现最高的准确度,而且让人惊讶的是还能将失败数量降至 3;相比而言,其它特征的失败数量超过 10。
下图展示了使用不同类型的特征作为输入所得到的可视化分类结果:
研究者比较了从所学到的卷积神经网络的第 1 和 2 层生成的某些响应图像与传统的图像处理(比如相位一致性和 Frangi Vesselness Filter)的输出,结果如下:
研究者发现,CNN 学习到的特征相当于某些广泛使用的非线性特征提取器所得到的特征。比如,响应图像 (g) 和 (i) 类似于 (b) 和 (c)。根据 (g) 和 (d),可以看到散斑噪声减少了。
表 2 给出了使用 L2 范数作为指标,每一层中过滤器的数量变化超过 40% 的层。
第 1 和 2 层的过滤器没有太大变化。研究者认为这可能是因为对于自然图像和超声图像而言,更低层面的特征基本是一样的。
4、分析师简评
一般性评论:
这篇论文研究了医疗图像上的某些迁移学习细节。研究表明,在自然图像上训练的卷积神经网络可用作医疗图像的有效特征提取器。对预训练后的网络进行微调能极大提升特征提取的表现。预训练的卷积神经网络可以基于数学归纳提取出同样或相似的特征作为非线性特征提取器。
可能存在的问题:
验证集太小了,实验中仅使用了 45 张图像。所以“失败数量”的结果不是很有说服力。
改进建议:
- 比较更多不同的预训练网络作为特征提取器的情况,以研究神经网络的架构是否会对迁移学习的效果产生影响。
- 使用不同的医疗图像(这里仅使用了肾脏图像)来比较特征提取器的表现。
其它思考:
迁移学习是一个活跃的机器学习领域。首先,很多问题(比如医疗图像检测)都只有很少的训练样本。我们需要仅需使用少量训练样本就能表现良好的模型。其次,从头开始创建全新的模型是非常困难且非常耗时的,因为所要初始化和调节的超参数数以千计。很多情况下,这些参数非常敏感,而且调节很困难。所以迁移学习能为我们提供一种使用给定数据集实现训练的更简单方法。此外,通过研究迁移学习的内在过程原理,我们可以更理解不同训练任务之间的共同结构和关系。