来自斯坦福大学和谷歌大脑的研究人员为基于概念的解释方法提出了一些原则和要求,在整个数据集上识别更高层次的人类可理解概念。此外,研究者还开发了一种可以自动提取视觉概念的新型算法 ACE。
随着机器学习模型广泛用于制定重要决策,可解释性成为研究领域的重要主题。目前大多数解释方法通过特征重要性得分来提供解释,即识别每个输入中重要的特征。然而,如何系统性地总结和解释每个样本的特征重要性得分是很有难度的。近日,来自斯坦福大学和谷歌大脑的研究人员为基于概念的解释提出了一些原则和要求,它们超出了每个样本的特征(per-sample feature),而是在整个数据集上识别更高层次的人类可理解概念。研究者开发了一种可以自动提取视觉概念的新型算法 ACE。该研究进行了一系列系统性实验,表明 ACE 算法可发现人类可理解的概念,这些概念与神经网络的预测结果一致且非常重要。
机器学习模型预测的可解释性已经成为一项重要的研究课题,在某些案例中更是成为法律要求。工业界也将可解释性作为「负责任地使用机器学习」的一个主要组成部分,可解释性并非属于「锦上添花」,而是「不可或缺」。
机器学习解释方法的大部分近期文献围绕深度学习模型展开。专注于为机器学习模型提供解释的方法通常遵循以下常规操作:对模型的每个输入,用移除(zero-out、模糊处理、shuffle 等)或扰动的方式改变单个特征(像素、子像素、词向量等),以逼近用于模型预测的每个特征的重要性。这些「基于特征」的解释方法存在多个缺陷。一些研究尝试证明这些方法并不可靠 [14, 3, 15]。
因此,近期很多研究开始以高级人类「概念」的形式提供解释 [45, 20]。这类方法不为单个特征或像素分配重要性,它们的输出就揭示了重要概念。
来自斯坦福大学和谷歌大脑的研究者列举了基于概念的解释方法应该满足的几项通用原则,并开发了一种系统框架来自动识别对人类有意义且对机器学习模型很重要的高级概念。该研究提出的新方法叫做 Automated Concept-based Explanation (ACE),其工作原理是:在不同的数据上累积相关的局部图像分割部分。研究者将该方法的高效实现应用于一种广泛使用的目标识别模型,并进行量化人类实验和评估,结果证明:ACE 满足基于概念的解释方法的原则,且能够为机器学习模型提供有趣的洞察。
解释算法通常具备三个主要组件:训练好的分类模型、来自同一个分类任务的测试数据点集合,以及向特征、像素、概念等分配重要性的重要性计算步骤。
该研究提出了一种新方法 ACE。它是一种全局解释方法,可在无需人类监督的情况下在分类器中解释整个类。
(a) 来自同一类别的图像集。使用多种分辨率分割每个图像,形成属于同一类别的图像分割部分的集合。(b) 当前最优 CNN 分类器瓶颈层的激活空间被用作相似度空间。在将每个图像分割部分的大小重新调整至模型标准输入大小后,相似的图像分割部分被聚集在激活空间中,而异常值则被移除以提升聚类的一致性。(d) 每个概念的 TCAV 重要性得分基于其样本分割部分计算得出。
ACE 使用训练好的分类器和某个类别的图像集作为输入,然后提取该类别呈现出的概念,并返回每个概念的重要性。在图像数据中,概念以像素组(图像分割部分)的形式呈现。为了提取类别中的所有概念,ACE 的第一步是分割类别图像(见图 1a)。为了从简单的细粒度概念(如纹理和颜色)和更复杂和粗粒度的概念(如物体部分和物体整体)中捕捉完整的概念层次,每个图像都按照多个分辨率进行分割。实验使用了三种不同的分辨率来捕捉三种层次的纹理、物体部分和物体整体。
ACE 的第二步是,将相似的分割部分归类为同一个概念的示例。为了衡量这些图像分割部分的相似性,研究者使用 [44] 的结果证明,在大型数据集(如 ImageNet)训练出的当前最优卷积神经网络中,最后层激活空间中的欧式距离是一种高效的感知相似性度量指标。然后将每个图像分割部分传输到 CNN,并映射至激活空间。执行映射后,使用图像分割部分之间的欧式距离将相似部分聚类为同一个概念的示例。为了保存概念一致性,移除每个簇中的异常部分,这些图像分割部分具备较低的相似性(见图 1b)。
ACE 的最后一步是从上一步得到的概念集合中返回重要的概念。该研究使用 TCAV [20] 基于概念的重要性得分(见图 1c)。
研究者使用 ACE 解释在 ILSVRC2012 数据集(ImageNet)上训练得到的 Inception-V3 模型。研究者从 1000 个类别中选出 100 个类的子集,并对其应用 ACE。
在实验中,50 张图像足以提取出足够多的概念示例,这可能是因为这些概念频繁出现在图像中。图像分割步骤使用 SLIC 来执行,因为其速度和性能在使用 3 种分辨率进行图像分割时都表现不错(15、50 和 80)。至于相似性度量,研究者检测了 Inception-V3 架构多个层的欧式距离,最终选择了 mixed_8 层。正如之前研究 [20] 所介绍的那样,前面的层更擅长纹理和颜色的相似性度量,后面的层更擅长物体层次的相似性度量,而 mixed_8 层实现了最佳的权衡。聚类时采用 k 折聚类,并利用欧式距离移除异常部分。
图 2:ACE 对三个 ImageNet 类的输出。从每个类别的 top-4 重要概念中随机选取了三个(下面是原图,上面是从中分割出的示例)。例如,我们可以看到网络分类器 police van 使用了警车的轮胎和 logo。
图 5:对模型的洞察。每个图像上方的文本表示原始类别以及我们对提取概念的主观解释,如「Volcano」类和「Lava」类。a)直观关联。b)非直观关联。c)一个物体的不同部分被作为多个独立却重要的概念。
研究者测试,如果随机组合多个重要概念,分类器会从中看到哪种类别。结果发现,对于大量类别而言,随机组合重要概念后,分类器仍将该图像预测为正确类别。例如,篮球衣、斑马纹、狮子鱼和王蛇的图像块足以使 Inception-V3 网络正确预测其类别。
从 ImageNet 验证集中随机采样 1000 个图像,研究者从最重要的概念中移除或添加概念。如图所示,top-5 概念足以使分类结果达到原始分类准确率的 80%,而移除 top-5 概念则导致 80% 的正确分类样本遭到误分类。