顾险峰作者 老顾谈几何来源

深度学习和几何(演讲提要)

感恩节来临,生活节奏终于缓慢下来。纽约长岛天空一片湛蓝,艳阳高照,满地碎金。这一阶段,老顾收到很多读者来信,大多询问深度学习和最优传输理论的关系,很多问题反映出读者的深度思考和独特见解。恰逢老顾也在研究生课堂上为学生们讲解深度学习的几何观点,最近也在世界各地给了很多相关的演讲。本文由机器之心经授权转载自老顾谈几何(ID:conformalgeometry ),未经授权禁止二次转载。

目前正是生成对抗模型理论迅猛发展阶段,也是深度学习算法和硬件迅速演化阶段。老顾倾向认为最优传输理论对于深度学习中的生成模型给出了迄今为止最为严格的理论解释,并对未来的发展有一定指导作用。最优传输理论(Optimal Mass Transportation ),凸几何(Convex Geometry),蒙日-安培方程(Monge-Ampere Equation)的交汇给出了生成模型的几何观点。

为此,老顾求教于世界上这一领域的知名数学家,向丘成桐先生请教蒙日-安培方程和Alexandrov理论,和Villani探讨最优传输的Brenier理论和GAN的关系,向汪徐家先生请教蒙日-安培方程解的正则性和Alexadrov逼近的收敛阶[5]。老顾也鼓励身边的年轻人投身到这一研究方向,深入理解最优传输理论,下苦功取得工程突破。

目前,老顾在哈佛大学的数学科学和应用中心负责人工智能方面的研究工作。诚聘博士后,有意愿者,请和老顾联系(gu@cmsa.fas.harvard.edu)。

最近,老顾在世界各地给出了一些演讲,主题是深度学习的几何观点,下面将这几次演讲的内容简略记录一下。相信的数学推导,可以参看以前的系列文章,深度学习的几何观点学习能力上限概率变换观点蒙日-安培方程

基本假设

近些年来,深度学习方法摧枯拉朽般地超越了传统方法,我们认为基于统计的深度学习方法的成功是因为如下的两个数据分布规律:

流形分布律(law of manifold distribution):在高维背景空间中,特定类的真实数据分布靠近某个低维流形;

聚类分布律(law of cluster distribution):同一类数据中的不同子类,对应于流形上不同的概率分布;并且这些概率分布之间的距离足够远,使得这些子类可以被区分。

比如,我们考察所有的128乘128的彩色图像,所有这样的图像构成了维欧氏空间中的一个单位立方体,我们称之为图像空间(image space)或者背景空间(Ambient space)。大多数图像并没有实际的物理意义,我们只对特定类别的图像感兴趣,例如人脸图像。所有的人脸图像分布在背景空间中的一个维数很低的流形附近,我们称之为数据流形(data manifold)。经过实验验证,人脸数据流形大概在100维左右。

流形嵌入

那么,我们如何来描绘这个流形如何获取这个流形如何保证逼近的精度?这些正是深度学习的第一个主要任务:学习流形的结构,计算流形嵌入。数学上,假设给定嵌入在背景空间中的流形,我们将流形上的一个开邻域,同胚映射参数空间,这一过程被称为是流形的局部参数化。用深度学习的语言来讲,就是学习编码映射(encoding map)和解码映射(decoding map),参数域被称为是隐空间(latent space)或者特征空间(feature space)。数据流形上的每个点被映射参数域上的一个点,即每张人脸图片被映射成隐空间中的一个点,被称为是这张图片的特征(feature),或者编码(code)。

数学上,给定一个流形嵌入在高维欧氏空间之中,我们在流形上稠密采样,通过采样点,我们可以重构分片线性流形,用以逼近初始流形。在数字几何中,我们用三维扫描仪扫描一张人脸曲面,得到的是稠密点云,然后我们对点云计算三维背景空间的Delaunay三角剖分,得到一张分片线性的曲面(三角网格),这张分片线性的曲面就是真实光滑人脸曲面的离散逼近。逼近的精度,取决于采样的密度,理论上一般用网(-net)。所谓采样条件如下:曲面上任意一个半径为的测地圆盘内部,至少有一个采样点;任意两个采样点之间的距离不小于。可以严密证明,合适选取可以保证重构的离散曲面收敛于原来光滑曲面,这里收敛指Hausdorff距离收敛,测地距离收敛,曲率测度收敛和Laplace-Beltrami算子收敛

深度学习采取同样的手法,我们在数据流形上稠密采样,然后重构分片线性流形,用以逼近数据流形。理论上-网的采样条件同样适用于深度学习理论,但是目前这方面研究一片空白。在深度学习模型之中,我们用流形的参数表示来描绘流形。举例而言,如果我们描述单位球面,我们可以用如下的参数曲面形式:

深度学习中,这种参数表示就是解码映射,一般由一个DNN来表示。通常我们用ReLU DNN,因此参数表示是分片线性映射

Fig.1 Autoencoder 学习流形。

我们将这些概念应用,做一个思想实验(thought experiment):假定背景空间是三维欧氏空间,数据流形是弥勒佛曲面(图1左帧)。我们在曲面上稠密采样,用经典的自动编码器(autoencoder)学习,将数据流形编码到二维隐空间(图1中帧);在将隐空间的特征向量映射会背景空间,得到分片线性的重构流形(图1右帧)。我们看到,重构流形较好地逼近了初始流形,编码映射和解码映射是:连续单射,即拓扑同胚。

Fig 2. 解码映射的分片线性结构。

ReLU DNN可以表示分片线性映射,例如弥勒佛的编码映射和解码映射。图2显示了这种分片线性结构。背景空间中的任意一点被映射到隐空间中,激活一系列的神经元,如果背景空间中的两点激活同样的神经元,那么它们彼此等价。所有彼此等价的点构成一个等价类,形成背景空间中的一个胞腔,每个胞腔被ReLU DNN线性映射到隐空间的一个胞腔。图2中不同的胞腔用不同的颜色来表示。由此,我们可以真切看到编码映射的分片线性结构。

概率变换

深度神经网络将数据流形的一个邻域映射到隐空间中,将数据的概率分布映射到隐空间中参数域上的一个概率分布。不同的编码映射会得到隐空间中的不同概率分布

Fig. 3 不同的编码映射得到不同的概率分布

图3显示了这一概念。两种编码映射将弥勒佛曲面映射到隐空间(平面圆盘),我们在平面圆盘上均匀采样,在拉回到弥勒佛曲面上。上面一行的编码映射将平面的均匀采样拉回成曲面上的非均匀采样;下面一行的编码映射将隐空间的均匀采样拉回成曲面上的均匀采样。这意味着,通过对隐空间进行变换,我们可以控制概率分布。在生成模型中,我们希望在隐空间均匀采样,从而得的数据流形上的均匀采样,即图3中的第二种情形。

最优传输

将一种概率分布变换成另外一种概率分布,这正是最优传输理论(Optimal Mass Transportation)的拿手好戏。这一理论有三种解读方式:概率论,偏微分方程和微分几何。我们简述如下:给定欧氏空间中的凸区域,其上定义了另个概率测度,满足总测度相同的条件,我们寻求一个隐空间到自身的同胚变换,将概率分布映射概率分布,记为。这样的映射有无穷多个,我们希望找到一个使得传输代价最小,传输代价可以定义成

,

这里距离函数是将单位质量从源点运输到目标点所花费的代价。最优传输映射就是满足条件并且使得传输代价最小者。最优传输映射的传输代价被定义为概率分布间的Wasserstein距离。

Fig 4. Wasserstein-GAN 模型的几何解释。

最优传输理论和Wasserstein距离被广泛应用于对抗生成网络(Generative Adverseral Net),生成器(Generator)的主要任务就是计算最优传输映射,将隐空间的均匀(或者Gauss)分布映射成数据分布;判别器(Discriminator)核心是计算数据分布和生成分布之间的Wasserstein距离。在目前的GAN模型中,判别器和生成器的计算相对独立,彼此竞争。图4给出了W-GAN的几何解释。

不同的距离函数诱导不同的最优传输映射。Brenier和Villani建立的理论表明,如果距离函数是欧氏距离的平方,,那么存在一个凸函数,Brenier势能函数,满足蒙日-安培偏微分方程:

Briener势能的梯度映射给出了隐空间的自同胚,并且将概率分布映射概率分布,并且这一映射使得传输代价最小,即最优传输映射

Brenier理论同时表明,Wasserstein距离的计算结果和最优传输映射的计算结果之间相差一个数学变换。因此,生成器和判别器的计算可以大为简化。

凸几何

另一方面,蒙日-安培方程刻画了微分几何种闵可夫斯基(Minkowski)问题和亚历山大(Alexandrov)问题,因此最优传输映射可以用几何方法求解。

Fig. 5 闵可夫斯基问题和亚历山大问题。

图5 显示了Minkowski和Alexandrov问题的几何图景:给定凸多面体每个面的法向量和面积,我们可以唯一决定凸多面体的形状。Alenxandrov问题中的凸多面体就是Brenier势能函数。根据我们的理论,Alexandrov问题可以通过凸优化来求解。

半透明模型

我们可以将流形嵌入和概率变换分拆,前者用AutoEncoder实现,后者用我们倡导的OMT 几何方法求解,这样我们将一部分的黑箱变得透明,得到半透明生成模型 AE-OMT。

Fig 6. AE-OMT 半透明生成模型

如图6所示,数据流形到隐空间的编码和解码映射用AutoEncoder实现,在隐空间中我们用几何方法计算Brenier势能函数,得到最优传输映射,将均匀分布映射成数据在隐空间的分布。

这种学习模型异常简单,同时概率变换部分的理论透明,优化能量为凸,保证了最优传输映射的存在性,唯一性,和数值稳定性。同时,离散解到光滑解的逼近阶也有理论保证。

Fig 7. 随机生成的人脸图像。

我们用这一模型来生成人脸图像,用CelebA数据集进行训练,然后在隐空间对编码随机采样,再用解码映射得到图像,如图7所示。

    Fig 8. 人脸图像流形上的一条曲线。

我们在隐空间任选两点,然后画出连接两点的直线段,解码映射将线段映成人脸数据流形上的一条曲线,如图8所示,我们看到姿态、表情、肤色的光滑变化过程。

Mode Collapse

很多自然数据分布式多模态的,就是说同一类数据中有多个子类,每个子类对应着数据流形上的不同分布。这些分布的支集(support)可能彼此分离。这时,传统的GAN模型非常难以训练,学习的结果也不尽人意。一般会出现两种情况,有可能GAN只能生成一两个数字,而无法生成所有10个数字;或者,GAN模型可能生成一些没有意义的图片。

Fig 9. MNIST 的生成结果。

比如我们学习MNIST数据,如图9所示,第二行第四列、第七行第四列的数字比较有歧义。

Fig 10. 第三行的人脸,左眼为棕色、右眼为蓝色。 

再如我们学习CelebA数据,如图10所示,第三行的人脸一只眼睛为蓝色,另外一只眼睛为棕色。这在生物学上是极其罕见的事情。

Fig 11. Mode collapse 的几何解释。

我们用图11来解释Mode Collapse的原因。在平面上,数据集合为离散点集,分成三个团簇,所有数据点的概率测度都相同。我们将单位圆盘映射到数据集合,就是说我们求取单位圆盘的一个胞腔分解,每个胞腔映射到一个数据点,胞腔的面积彼此相等。同时,在所有这种胞腔分解中,求得唯一的一种,使得传输代价最小,即离散最优传输映射。Brenier势能函数表示成定义在单位圆盘上的凸多面体曲面。我们看到,凸多面体有3条尖脊,平面圆盘的胞腔分解有3条分割线,将圆盘分成3个区域,每个区域映到一个团簇。因此,最优传输映射不是连续映射。但是,ReLU DNN只能表达连续的分片线性映射,这意味着最优解不在DNN的函数空间里面。因此ReLU DNN或者映到某几个团簇,或者映到团簇之间的无意义区域。半蓝半棕眼睛的图像就是如此生成。在这种情形下,Brenier势能函数是连续的,传输映射是非连续的,DNN应该去表示Brenier势能函数,而非直接表示传输映射

小结

这里,我们基于流形分布假设、团簇分布假设将深度学习的任务分解为流形嵌入和概率变换。概率变换可以由经典的最优传输理论来解释,并用几何方法来取代。简单的Autoencoder-OptimalTransportation (AE-OMT)模型可以用于各种生成任务,对于Mode Collapse给出了几何解释。

几何观点下的深度学习方向具有大量的理论问题期待解决,大量的技术细节需要仔细探讨,大量的实际应用等待开发。如果广大同学和朋友有兴趣合作,欢迎切磋交流!

鸣谢

这些工作是和世界各地很多学者共同完成,哈佛大学的丘成桐先生,格罗斯大学的罗锋教授,石溪大学的Dimitris Samaras教授【4】,大连理工大学的罗钟铉教授,雷娜教授,郑晓朋教授,武汉大学的苏科华教授,北京师范大学的崔丽教授,Arizona大学的王雅琳教授,UCLA的刘克峰教授,首都师范大学的方复全教授,香港中文大学的雷乐铭教授等等,一概表示感谢!特别感谢Cedric Villani先生,汪徐家教授!也特别感谢研究生团队,温成峰,齐鑫,李新元,郭洋,安东生,李轩,刘会东,王怡硕,陈伟,任玉雪,柯景耀和很多同学!

References                              

  1. Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu.  "Geometric Understanding of Deep Learning". arXiv:1805.10451 . 

    https://arxiv.org/abs/1805.10451

  2. Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.

  3. Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488

  4. Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.

  5. Haodi Chen, Genggeng Huang and Xu-Jia Wang, “Convergence rate estimates for Aleksandrov's solution to the Monge-Ampere Equation", Accepted by SIAM J. Numerical Analysis.
    本文由机器之心经授权转载自老顾谈几何(ID:conformalgeometry ),未经授权禁止二次转载。
    原文链接:https://mp.weixin.qq.com/s/Upkci9ovvrlmA7EhqmNd0g











理论数学
4
相关数据
孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~