从输入到输出的「黑箱」:我们能够理解深度神经网络吗?

Dmitry Malioutov 无法详细解释他构建的系统。

Malioutov 是 IBM 的一名研究科学家,他的部分工作是开发能为 IBM 的企业客户解决所面临的难题的机器学习系统。其中一个项目是为一家大型保险公司建立的。这是一项极具挑战的任务,需要一个精密复杂的算法。然而当要向客户解释结果的时候,他却遇到了障碍。「我们无法向他们解释这个模型,因为他们并没有接受过机器学习的训练」。

事实上,即使他们是机器学习专家可能也没用。这是由于该模型是一个人工神经元网络,这个系统接受给定类型的输入数据——在这个案例中即保险公司的客户纪录——然后找出其中的特定模式。这种网络在实际中的应用已经有半个多世纪的历史了,但最近这个领域出现了突破性的进展——从语音识别和语言翻译到机器人围棋棋手和自动驾驶汽车。

10291_ef1890585bae446a0668afed3012daa2.png

「隐藏」意义:在神经网络(neural networks)中,数据在层与层之间传递,并在每一步经历简单的转变。在输入层和输出层之间的是隐藏层(hidden layers),这些层中包含大量节点和连接,它们遵循着人类无法解释的模式,或者与输入输出层之间并没有明显的联系。「深度(Deep)」网络就是指那些包含很多隐藏层的网络。

它们有着极佳的性能,可产出激动人心的结果,但现代神经网络有一个麻烦的问题:没人能真正搞清楚它们是如何工作的。而这就意味着没人能预测到它们会在什么情况下失效。

举个例子,机器学习研究者 Rich Caruana 和他的同事最近报道了一个事件。匹兹堡大学医学中心有一个团队在用机器学习预测肺炎患者会不会发展出严重的并发症。他们的目标是把那些低并发症风险的病人送到门诊病房,以节省医院床位并减轻医务人员负担。这个团队尝试了好几种不同的方法,包括很多种神经元网络,以及能产生清晰可读的规则的软件生成的决策树。

他们的神经网络比其他任何方法得到正确结论的次数都更多。但当这些研究人员和医生查看那些人类可读的规则时,他们发现了这样的描述:有一条规则指示医生把有哮喘的肺炎患者送回家,但谁都知道哮喘患者是很容易患并发症的。

这个模型所做的只是人类分配给它的任务:找出一个数据中存在的准确模式。它给出的糟糕建议是数据中的漏洞所致。因为医院的政策是把所有患哮喘的肺炎病人送入重症监护,而正因为这个政策的良好成效,几乎所有哮喘患者都不会患上并发症。如果没有改变了医院患者纪录的额外加护工作,结果会与现在有很大不同。

这则医院轶事说明了可解释性(interpretability)的实际价值所在。Caruana 及同事写道:「如果那个基于规则的系统 (rule-based system)能知道哮喘降低了风险,神经网络当然也会学习到这一点。」但是神经网络并不能被人类理解,而且它对于哮喘患者得出的怪异结论的原因也难以确认。如果不是有那个可解释的模型,Malioutov 警告说:「你可能真会害死人。」

这就是为什么很多人不愿意把赌注押在神经网络的不确定性上。当 Malioutov 把他那准确但不可解释的神经网络模型呈现给客户时,他同时也提供了一个基于规则的备选模型,这个模型的工作方式是可以用简单的术语进行沟通的。第二种可解释的模型其实没有第一种准确,但即便如此客户还是选择了第二种——虽然对一个具备高度数学复杂性的保险公司,准确性的每个百分点都很重要。Malioutov说:「他们更加认可它(第二种模型),他们真的非常注重直观。」

甚至政府都开始关注不可解释的神经网络预言日趋增加的影响力。欧盟最近提出的新法案要建立「解释权(right to explanation)」,它让市民有权要求算法决策的透明化。然而这项立法很可能是难以实行的,因为立法者并未明确界定「透明(transparency)」的含义。我们并不清楚这种疏忽是源于对问题的无知,还是由于立法者的确深知其中的复杂性。

事实上,有些人认为这种清晰的定义是不可能的。目前对于神经网络的运作方式,虽然我们已经知道了所有能知道的事情,但它们毕竟只是计算机程序,我们对它们工作的方式和原因所知甚少。这个网络是由许多(有时是几百万个)独立的单元组成的,它们叫做神经元(neuron)。每个神经元都会把多个数字输入转化成一个数字输出,然后再把它传递给另一个或很多个其它神经元。就像在大脑中一样,这些神经元被分成很多「层 (layer)」——一些可以获取下层的输入数据并把它们的输出传递给上层的细胞团。

神经网络的训练通过数据的馈送进行,然后不断调整层级间的连接,直到网络计算出与已知输出(一般由很多子类组成)尽可能接近的输出为止。过去几年取得的惊人成果要归功于一系列新技术,它们使得训练在输入和最终输出之间有很多层级的深度网络成为可能。一种受欢迎的深度网络叫做 AlexNet,它被用来给照片归类,分类的标准是看照片中是否有狮子狗或者博美犬。它包含了六千多万个「权重(weight)」,神经元通过权重得知要对每个输入数据给予多少关注。「如果想理解这个网络,你必须要对这六千万个数字有一定的理解才行。」一位任职于康奈尔大学和 Geometric Intelligence 的计算机科学家 Jason Yosinski 说道。

即使有可能加强这种可解释性,也并不总能得到满意的结果。对于可解释性的需要也可以被看作是另一套约束条件,这会妨碍一个模型得到只与输入数据和给定的输出结果相关的「纯粹」结果,而且有可能会降低准确性。在今年早些时候的一次 DARPA 会议上,项目经理 David Gunning 用一个表格总结了相关的利弊,结果显示深度网络是现代技术中最不可理解的。而与之相对的技术是决策树(decision tree)——一种对解释的关注重于效率的基于规则的系统。

10301_b1f130b49d0fcfa2348098ee4467452f.png

WHAT VS. WHY:现代学习算法需要在人类可解释性(或可解读性)和准确性之间做出权衡。而深度学习是最准确的,同时也是最不可解释的。

结果是现代机器学习系统给了我们一个选择:我们是想准确的知道会发生「什么」,还是想知道「为什么」会发生某件事,而这要以牺牲准确度为代价?「为什么」帮助我们制定决策、适应环境、以及了解模型何时可能崩溃。而「什么」则能帮助我们解决当下的实际问题。

这是一个艰难的选择。但有些科学家希望能消除选择的需要——让我们在享受多层计算的成果的同时还能理解它。令人吃惊的是,有些最具前景的研究方向把神经网络视为实验对象——模仿了最初激励他们的生物科学——而非分析性的、纯数学的对象。比如 Yosinski 就表示他正尝试「像理解动物甚至理解人类那样」去理解深度网络。他和其他计算机科学家正致力于引进生物学研究中的技术来窥视网络深处,这模仿了神经科学家窥视大脑内部的方法:探查单个组成部分,纪录下它们如何响应输入中的微小改变,甚至移除部分碎片看其它成分如何补偿。

从零开始构建一个新的智能系统以后,现在科学家们又要把它拆开了,对这些虚拟有机体用了显微镜和解刨刀的数字等同物。



Yosinski 坐在一台计算机终端前,对着一个网络摄像头侃侃而谈。网络摄像头的数据被传人一个深度神经元网络中,而该网络自身也正被实时分析着——用的是 Yosinski 和同事开发的叫做 Deep Visualization(深度可视化)的工具包。在屏幕上点击了几下, Yosinski 放大了网络中的一个神经元。在这次交互的视频录像中,他说道「这个神经元似乎会对脸部图像做出反应。」我们知道人类的大脑中也有这种神经元,许许多多这样的神经元聚集的区域被称为梭状回面部区(fusiform face area)。这个区域是在一项始于1992年的多研究项目中被发现的,是人类神经科学中最可靠的观测结果。但这些研究需要用到像正电子放射断层造影(positron emission tomography) 这种先进技术才能进行,Yosinski 仅通过代码就能窥视他的人造神经元。

10315_059bbd8df7767d3bc7829e3735c221e2.png

大脑活跃性:深度神经网格(绿色方框标记)中的一个神经元对 Yosinski 的脸作出响应,就像是人类大脑中那个对脸部作出可靠响应的特别部分一样(黄色强调)。左:来自 2015年国际机器学习大会(ICML)上的深度学习研讨会( Deep Learning Workshop)中 Yosinski 等人的演讲: Understanding Neural Networks Through Deep Visualization。右:来自乔治城大学医学中心 Maximilian Riesenhuber。

这种方法让他能把特定的人造神经元绘制成人类可理解的概念或对象,比如脸,这能帮助神经元网络转变成直观的工具。他的项目也能找出图片的哪一方面对面部神经元的刺激最显著。他说:「我们能看到如果有颜色更深的眼睛或更红的嘴唇,它们的响应会更强烈。」

在杜克大学的计算机科学与电子和计算机工程教授 Cynthia Rudin 看来,这种「事后分析」的解释本质上是很有问题的。她的研究集中在构建基于规则的机器学习系统上,主要应用在像罪犯量刑和医学诊断这种人类可读解释是有可能而且也重要的领域中。但她认为,对于像视觉识别这样的问题,「人类对其结果的解释完全是主观的。」我们可以把网络响应简化成面部神经元的识别,但我们如何确定这就是它所寻找的呢?Rudin 的担心对应着那则著名的格言,也许并没有比视觉系统更简洁的模型,除了视觉模型本身。「对于一个复杂模型在做什么,你可以有很多解释,那你是不是就挑出那个你想要的,然后认为它是对的呢?」她说道。

Yosinski 的工具包能够部分反驳这些担忧,通过逆向工程的方式探索出网络自身「想要的」正确结果,这是一种理想的人为方法。这个项目从原始静态开始,进而一个像素接一个像素的调整,通过训练网络的逆向过程捣鼓图像。最终它找到一张能让给定神经元得到最大可能响应的图像。当将这种方法用于 AlexNet 神经元上时,它产生的计算机图像鬼魅般的、准确无误地产生了标记类别。


10293_37f2fc94430a30d7dba690d94d7e1223.png

理想化的猫:计算机合成的理想猫脸的例子,由 Deep Visualization 工具包产生。这些猫脸的产生是通过对初始图像住个像素的调整,直到 AlexNet 的面部神经元得到一个最大响应为止。来自 2015年国际机器学习大会(ICML)上的深度学习研讨会( Deep Learning Workshop)中 Yosinski 等人的演讲: Understanding Neural Networks Through Deep Visualization。

在非常普遍的意义上,这似乎能支持他面部神经元确实是在寻找脸部图像的理论。但这里有个问题。为了生成这些图像, Yosinski 的程序依赖于一个统计学约束(叫做自然图像优先(natural image prior)),这会限定它产生出与真实世界物体类似的结果相匹配的图像。当他移除这些规则后,工具包仍旧会选定它标记为最大可信度的图像,但这个图像就是纯静态的了。事实上,Yosinski 在很多案例中都展示过这点,AlexNet 神经元更倾向于呈现给人类的图像绝大部分都是静态的。他很乐意承认「很容易搞清楚如何让这种网络说一些极端的话。」

为了避免这种陷阱,弗吉尼亚理工学院的一位电子和计算机工程助理教授 Dhruv Batra 采取了一种更高级别的试验性方法来破译深度网络。他并未试图在神经网络的内部结构中寻找模式——对此他辩驳说「因为比我更聪明的人已经在这样做了」——而是用一种机器人版本的眼跟踪技术来探索神经网络的工作机理。他的团队,在一个由研究生 Abhishek Das 和 Harsh Agrawal 带头的项目中,向深度网络提出关于图像的问题,比如给定的房间图片中的窗户上有没有窗帘。不像 AlexNet 或类似的系统,Das 的网络设计就是一次只关注图像上一块小区域。它在整个图像上移动虚拟眼睛,直到它认为获得了足够多回答问题的信息为止。经过充分的训练后,这种深度网络能取得很棒的表现,回答精确度与人类最佳水平相当。

然后Das、Batra 及其同事尝试去发现网络如何通过调查选择查看的图片位置来做决策。他们的发现令人惊讶:在回答关于窗帘的问题时,网络甚至没有费心去找窗户。相反,它首先查看图像的底部,如果找到一张床则停止寻找。看来,在用来训练这个神经网络的数据集中,有窗帘的窗户可能会出现在卧室里。

尽管这种方法确实揭示了一些深度网络的内部运作,但它也增加了可解释性方面的挑战。「机器所拾取的不是关于这个世界的真相,」Batra 说。「它们是有关数据集的真相。」机器与被供给的数据紧密调谐,这使得提取关于机器运行的一般规则变得困难。更重要的是,他警告说,如果你不知道它是如何工作的,你便不知道它会如何失败。而当它们真的失败了,以 Batra 的经验,「它们会败得壮观且丢脸。」

类似 Yosinski 和 Batra 这样的研究人员所面临的一些障碍,对于研究人类大脑的科学家来说会比较熟悉。例如有关神经影像学的解释问题在今天已经非常常见,尽管还没有得到普遍重视。在  2014 年的一篇回顾有关该领域的文章中,认知神经科学家 Martha Farah 写道:「忧虑在于……(功能型大脑/functional brain)图像更像是研究者的发明,而不是研究者的观察。」在非常不同的智能系统中出现的这些问题表明,它们可能会成为障碍。这不是根据对于这种或那种大脑的研究,而是根据对智能本身的研究。

10276_450ad5ed12c018f57a29c8f0ea7008ff.png



探究可解释性是一件傻事吗?来自圣地亚哥加利福尼亚大学的 Zachary Lipton,质疑了解释神经网络的企图以及建立可解释型机器学习模型的价值。他给今年的国际机器学习大会(International Conference on Machine Learning /ICML)中一个关于人类可解释性( Human Interpretability)的专题讨论会(由 Malioutov 及其两个同事组织)提交了一份煽动性的论文。该文标题为「有关模型可解释性的神话(The Mythos of Model Interpretability)」,这篇文章挑战了可解释性的定义以及研究人员寻找它的理由。

Lipton 指出许多学者不同意可解释性的概念,这让他意识到:可解释性要么并不存在——要么就有多种可能含义。他认为不应当信任这种解释冲动,而研究者应该使用神经网络来解放自己去「探索有野心的模型。」他说可解释性阻止了模型去充分发挥其全部潜力。他认为该领域的一个目的是「构建能从超过人类处理能力的更多特征中学习的模型。」

但这种能力既是特点也是缺陷:如果我们不了解网络输出是如何产生的,那么我们就不知道输入的哪些方面是必要的,或者甚至连什么可以被当做输入都不知道。案例:1996 年萨塞克斯大学的 Adrian Thompson 通过应用类似于今天那些训练深度网络的技术来使用软件设计电路。该电路是用来执行一个简单的任务:区分两个音频的音调。在对电路元件数千次的洗牌和重新安排之后,该软件找到了一个能够近乎完美地完成任务的配置。

然而 Thompson 惊讶地发现,该电路使用了比任何人类工程师所需要的更少的组件——包括几个没有与剩余部分进行物理连接的组件,但不知何故它们对于电路的正常工作来说仍然是必要的。

他着手解剖电路。经过几次实验,他了解到之前的成功是利用了相邻组件之间微妙的电磁干扰。未连接的组件是通过引起局部电场的小波动来影响电路。人类工程师通常会防范这些干扰,因为它们不可预测。果然,当 Thompson 将相同的电路布局拷贝到另一批组件中时——或者甚至改变了环境温度——它彻底失败了。

该电路表现出了训练后的机器的一个标志性特征:它们可以非常紧凑和简化,非常适合其环境——但不适应任何其他环境。它们能够获取工程师看不见的模式;但不知道哪一个模式在别的任何地方都不存在。机器学习的研究人员竭尽全力去避免这种被称为「过拟合(overfitting)」的现象,但是这些算法正被应用于越来越多的动态情况中,其脆弱性会不可避免地被暴露出来。

对于普林斯顿大学的计算机科学教授 Sanjeev Arora 来说,这种现象是他寻找那些允许人类干预和调整网络的可解释性模型的主要动机。Arora 指出了两个可能代表不可理解型机器的硬性限制问题。一个是「可组合性(composability)」——当手头的任务涉及到许多不同决策(比如有关围棋或自动驾驶汽车)时,网络无法有效地学习哪个决定导致了失败。「通常当我们设计东西时,我们了解不同的组件然后把它们组装在一起,」他说,这允许人类调整那些不适合给定环境的组件。

另一个使得可解释性悬而未决的难题被 Arora 称为「域适应性(domain adaptability)」——从一种环境到另一种环境灵活应用知识的能力。这个任务对于人类学习者来说可以做得很好,而机器却会以令人惊讶的方式失败。Arora 描述了程序是如何灾难性地无法适应于那些甚至是微妙的环境变化,而人类则可以轻松处理。例如一个被训练的通过阅读正式文件(如维基百科)来分析人类语言的网络,会在更口语化的语境(如 Twitter)中全盘失效。

以这种观点来看,可解释性看起来似乎很重要。但我们明白自己所说的话是什么意思吗?先驱计算机科学家 Marvin Minsky 创造了「suitcase word(手提箱词)」一词来描述许多术语——比如「意识」或者「情绪」——当我们谈论自己的智能时会使用它们。他提出,这些词反映了许多被锁在「手提箱」中的不同潜在过程的工作原理。只要我们继续调查这些词汇,代替那些更加基本的概念,那么争论就会过去,我们的见解将被我们的语言所限制。在有关智能的研究中,「可解读性(interpretability)」本身也可能是这样一个手提箱单词吗?

虽然与我谈话的许多研究人员都乐观地认为,总有一天理论家们会打开行李箱并发现一套类似于牛顿定律那样单一、统一的原则或定律,主宰机器学习(可能也包括人类学习),但是其他人告诫到没有理由做这样的期望。纽约城市大学的哲学教授 Massimo Pigliucci 提醒道,自然科学以及扩展到人工智能的「理解(understanding)」——可能会成为 Ludwig Wittgenstein (先于Minsky)所说的一个「集群概念(cluster concept)」,它承认许多(部分有区别的)定义。他说,如果该领域中的「理解(understanding)」确实实现了,则它可能不会在物理学中被发现,而是在进化生物学中。他说我们或许更期待物种起源而非统一定律。

当然这并不意味着深度网络预示着某一种新的自主生命体。但它们可能会像生命一样难以理解。该领域越来越多的实验方法及事后解释,可能不是某种身处黑暗渴望理论之光的绝望感。相反它们可能会是我们所能期待的唯一光明。可解释性可能会逐渐作为一组按照(生物)分类学排列的「物种」原型实例出现,其由推理所定义,并取决于特定语境的解释。

在  ICML 的专题讨论会结束时,一些出现在舞台上的主持人尝试去定义「可解释性」。下面的响应声与辩论小组的数量一样多。一些讨论过后,各小组似乎找到了共识——「简洁性(simplicity)」对可解释型模型来说是必要的。但是在为简洁性下定义时,小组又出现了分歧。「最简单的」那个模型是不是依赖于最少特征的那一个?是不是得到最大差异的那一个?是不是程序体积最小的那一个?专题讨论会结束时没有给出一个统一答案,那个未完成的概念定义被替换成了另一个。

正如 Malioutov 所说的那样:「简洁性并不简单。」


参考文献


1. Caruana, R., et. al Intelligible models for healthcare: Predicting pneumonia risk and hospital 30-day readmission. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 1721-1730 (2015).

2. Metz, C. Artificial Intelligence Is Setting Up the Internet for a Huge Clash with Europe. Wired.com (2016).

3. Yosinski, J., Clune, J., Nguyen, A., Fuchs, T., & Lipson, H. Understanding neural networks through deep visualization. arXiv:1506.06579 (2015).

4. Sergent, J., Ohta, S., & MacDonald, B. Functional neuroanatomy of face and object processing. A positron emission tomography study. Brain 115, 15–36 (1992).

5. Kanwisher. N., McDermott, J., & Chun, M.M. The fusiform face area: A module in human extrastriate cortex specialized for face perception. The Journal of Neuroscience 17, 4302–4311 (1997).

6. Das, A., Agrawal, H., Zitnick, C.L., Parikh, D., & Batra, D. Human attention in visual question answering: Do humans and deep networks look at the same regions? Conference on Empirical Methods in Natural Language Processing (2016).

7. Farah, M.J. Brain images, babies, and bathwater: Critiquing critiques of functional neuroimaging. Interpreting Neuroimages: An Introduction to the Technology and Its Limits 45, S19-S30 (2014).

8. Lipton, Z.C. The mythos of model interpretability. arXiv:1606.03490 (2016).

9. Brockman, J. Consciousness Is a Big Suitcase: A talk with Marvin Minsky. Edge.org (1998).

本文由机器之心编译出品,原文来自Nautilus,作者:AARON M. BORNSTEIN,参与:Rick、Quantum、吴攀,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。

入门
登录后评论
暂无评论
暂无评论~
返回顶部