杜伟 路雪编译

AI寒冬论作者再发文:「深」度学习对数据的理解太「浅」了

AI 寒冬论作者 Filip Piekniewski 再次发文,从计算机视觉的角度出发谈论深度学习的效用和风险等。他认为经典计算机视觉不会消亡,深度学习只能应用于可接受偏差的场景中。

计算机视觉和 AI 领域研究者 Filip Piekniewski 曾经发表「AI 寒冬将至」的观点,从大公司对 AI 研究的兴趣、深度学习的扩展能力、炒作等角度展开,并认为 AI 寒冬必将到来。前不久,他再次发文,从硅谷的起落讲述 AI 寒冬原理,声称人工智能区块链终将走入死胡同。这次,他从老本行计算机视觉出发,认为经典计算机视觉技术非常强大并且短期内不会消亡,深度学习对数据的语义理解非常浅层,只能用于接受偏差的场景中。

目前,深度学习为很多领域(尤其是计算机视觉领域)提供了新功能,令很多人对之着迷。然而,深度网络是「黑匣子」,多数人不了解其工作原理(坦白说,我们中的大多数人都是如此,甚至受过该领域培训的科学家也无法准确说出它们是如何工作的)。但是,深度学习的成功以及一系列令人意外的故障模式为我们处理数据留下了宝贵的经验。

本文将展示深度学习的实际效能、深度学习与经典计算机视觉(离消亡还很远)的联系,以及关键应用依赖深度学习的潜在危险。

传统计算机视觉

传统计算机视觉是一个广泛的算法集合,这些算法可以从图像中提取信息(通常表示为像素值数组)。各种应用可以使用的方法很多,如去噪、增强和目标检测。一些方法旨在找出简单的几何基元,例如边缘检测、形态分析、霍夫变换、Blob 检测、角点检测(Corner dection),以及图像阈值(image thresholding)的各种方法。同时还有一些特征表示和变换方法,如方向梯度直方图和哈尔级联(Haar cascade),这些可以作为机器学习分类器的前端,以构建更复杂的检测器。

与流行的理念不同,以上讨论的这些工具结合起来可形成用于特定对象的非常强大和有效的检测器。人们可以构建人脸检测器、汽车检测器和路标检测器,并且对于这些特定对象来说,检测器很可能会在准确率和计算复杂度两方面优于深度学习解决方案。但问题是,每个检测器都需要由专业人士从零开始构建,而这低效、昂贵且无法扩展。

因此,在历史上,极好的检测器只用于那些必须频繁检测且能够证明前期投资合理的对象。很多这样的检测器属于私人专有,不向公众开放。还有一些很棒的人脸检测器及汽车牌照阅读器等。但是,没有一个头脑正常的人会投资编写狗探测器或者对图像中某一品种的狗进行分类的分类器。这样做既昂贵又不实用。这时就需要深度学习了。

深度学习的祝福与诅咒

深度学习技术使用一种叫作梯度反向传播的优化方法来生成「程序」(也被称为「神经网络」)。这些「程序」和优化技术对这个世界一无所知,它们所关心的只是构建变换和条件集合,而这些将为数据集中的图像分配正确的标签。如果存在一些明显的提示(如数据集中所有狗图像的左上角为蓝色),则程序会毫不犹豫地利用这一点「故意为之」。

这些偏差可以通过向训练集添加更多数据来消除,但由反向传播生成的「程序」非常大,也非常复杂,拥有数百万的参数和数千个条件检查(condition check),因此可以理解更小偏差组合。任何允许分配正确标签以在统计学上优化目标函数的程序都会这样做,而不管是否与任务中的「语义精神」(semantic spirit)有关。

这些网络最终是否可以理解「语义正确」的先验呢?当然可以。但现在大量证据表明,这并不是网络实际做的事情。对抗样本表明,对图像进行极细微且察觉不到的修改即可完全颠覆这些结果。对与训练数据集类似的新样本进行研究后发现,原始数据集以外的泛化较数据集内的泛化更弱 [1],这表明网络理解的是给定数据集的低层级特征。在某些情况下,修改单像素即可破坏一个深度网络分类器。

在某些方面,深度学习的最大优势——自动创建人类无法想出的特征——同时也是其最大弱点,因为毫不夸张地说,大多数这些特征在语义上是「可疑的」。

什么时候有用,什么时候没用

深度学习计算机视觉工具箱的一种有趣补充。现在,我们可以较容易地「训练」某些对象的检测器,否则实现起来太贵且不切实际。在某种程度上,我们也可以扩展这些检测器,以利用更多的计算能力。但是我们会为此付出很高的代价:我们不知道它们如何做出决策,同时我们明白分类的基础很可能与任务的「语义精神」毫无关系。因此,只要输入数据违反了训练集中存在的低层级偏差,检测器就会意外出现故障。实际上,这些故障条件无法描述。

因此在实践中,深度学习很适合那些误差不严重且能够保证输入与训练数据集出入不大的应用,即仅需要性能达到 95% 的问题,包括图像搜索、监控、自动零售,以及几乎所有并非「关键性」并且之后可以进行检查和改正的任务。讽刺的是,大多数人认为深度学习是应用空间的一场革命,这些应用需要实时做出决策,误差很关键且可能导致致命性结果,如自动驾驶汽车和自动化机器人(例如,近期研究显示,基于深度神经网络自动驾驶解决方案的确易受到现实生活中对抗攻击的影响)。我只能说这种观念是一种「不幸的」误解。

一些人对深度学习在医疗和诊断领域的应用寄予厚望。然而,这个领域也有一些令人担忧的发现,如在一个机构数据上训练的模型出现故障,却在另一个机构数据上验证良好。这种情况再次与以下观点保持一致,即这些模型获取的数据比很多研究人员所希望的更浅层。

数据比我们想的要浅

令人意外的是,深度学习教给我们一些有关视觉数据(通常是高维数据)的有趣东西:以一些较我们过去认为的更「浅」的方式。相比在统计意义上分离一个拥有高级人工分类标签的视觉数据集,基于「语义正确」分离数据集的方法比较少。换言之,在统计学上,低级图像特征集比我们想象的更强大。这是深度学习的重大发现。如何生成按「语义合理」方式分离视觉数据集的模型,这个问题仍然是开放性的,事实上现在这个问题更难回答了。

结论

现在,深度学习已经成为计算机视觉工具箱的重要组成部分。但是,传统计算机视觉仍然用于构建非常强大的检测器。这些手工制作的检测器在一些特定的数据集指标上或许无法实现高效能,但可以保证它们依赖于输入的「语义相关」特征集。所以,检测器的故障模式可被更好地描述和预测。深度学习在无需特征工程的情况下提供统计意义上强大的检测器,不过这依然需要大量标注数据、GPU 和深度学习专家。但是,这些强大的检测器会意外出现故障,它们的适用范围也无法轻易界定(或者更进一步说,根本无法界定)。对于一些可以接受偶尔灾难性故障的应用,深度学习运行良好。但对于那些在给定条件集中性能和计算复杂度更重要的应用,它们会在未来很多年里使用经典的机器视觉管道。

原文链接:https://blog.piekniewski.info/2019/04/07/deep-learning-and-shallow-data/

产业深度学习计算机视觉AI
2
相关数据
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

图像搜索技术

图像搜索是通过搜索图像文本或者视觉特征,为用户提供互联网上相关图像资料检索服务的专业搜索引擎系统,是搜索引擎的一种细分。图像搜索方法一般有两种:通过输入与图片名称或内容相似的关键字来进行检索;或者通过上传与搜索结果相似的图片或图片URL进行搜索。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

推荐文章
暂无评论
暂无评论~