思、一鸣编译

为ML带来拓扑学基础,Nature子刊提出拓扑数据分析方法

一位意大利数学家表示,现在我们可以使用一种新数学方法,让机器学习系统能更高效、快速地学习识别复杂图像。该数学家提出的理论已经被 Nature 子刊《Machine Intelligence》接收,该论文的作者表示,这种新方法可以称为「拓扑数据分析(TDA)」。

从数学理论的角度来理解并提升机器学习方法,这也是近来非常有潜力的研究方向。不论是以前通过常微分方程或偏微分方程形式化神经网络,还是这一篇从拓扑学的角度强化神经网络的鲁棒性,也许当更多的数学基础被赋予机器学习时,它的发展与创新就会变得更加有「规律」。

  • 论文地址:https://www.nature.com/articles/s42256-019-0087-3

  • 实现地址:https://zenodo.org/record/3264851#.XW3P7lwzaUk

本文介绍了这种基于拓扑学的数学方法,因为具体的推导与证明非常复杂,我们只简要介绍主体思想与实验,更多详细内容可查阅原论文。

目前的 ML 有什么缺陷

ML 有很多缺陷。首先,机器学习系统的鲁棒性一直备受质疑。例如,在识别目标时,如果目标发生旋转,则 ML 系统不能识别这一目标。此外,研究者提到,即使 ML 系统在性能方面表现良好,人们依然不知道模型内部发生了什么。

这两大问题促使研究者探究——是否可以将知识在训练前输入模型中,使其在一个更为有限的空间内进行搜索,而不是考虑搜索空间中所有的可能,哪怕是那些在现实中从来不可能出现的。

「我们想要控制模型学习到的特征所在空间,」论文一作 Mattia Bergomi 表示,「这有点像平庸和大师级象棋选手的差别,前者看到了所有可能的棋路,但是后者只看到那些好的路子。」

据研究者们介绍,他们的研究只集中解决一个问题:「训练识别路标的深度神经网络时,如何告诉网络只需要关注三角形、环形等简单的几何形状即可。」

可以识别图像旋转的「机器」。

怎样解决?

对此,研究者提出了一种名为拓扑数据分析(Topological Data Analysis: TDA)的方法。TDA 可以被视为是一种搜索拓扑特征这一内部结构的工具,根据拓扑特征,任意复杂的目标都能表示为一大组数字。而种拓扑特征只需要通过特定的「镜头」,或者过滤器,来对数据进行浏览就能得到。

例如,对于人脸数据来说,使用 TDA 可以教会神经网络在没有多种角度的人脸数据的情况下进行人脸识别。

为了测试这种方法,研究人员设置了一个教会神经网络学习识别手写数字的实验。根据手写数字的人的不同,写出的数字可能是两个一样的,或者看起来很不一样但实际上是一个数字的情况。研究者构建了一系列他们认为有意义的先验特征,并要求机器从这些不同的「镜头」中选择,并处理图像。

研究人员从数学角度介绍了这种通用型框架。他们表示,TDA 是一种可以在数据集上进行运算的算子集合。

具体而言,拓扑学数据分析方法用于描述群等不变非扩张算子(group equivariant nonexpansive operators: GENEO)的空间。GENEO 是函数空间和变换之间的映射。研究人员研究了 GENEO 的拓扑和度量性质,用于评价它们的近似率,并设置了用于初始化的泛化策略。在结合了算子后,研究人员最终将它们以树状结构连接,用于组成算子网络。

研究人员发现,用于识别数字 5 和数字 7 的 TDA 增强神经网络所需要的训练数据量和训练时间都相当程度地减少了。

实验结果

在这一部分中,研究者测试了该方法在分类数据集中的效果。首先作者构建了一种算法以允许选择并采样 GENEO,从而通过一种标注函数学习在数据集上归纳的度量。随后作者定义了 GENEO 将要使用的目标类别,它们都是 MNIST、fashion-MNIST 和 CIFAR-10 数据集中的类别。

选择和采样会用于逼近一个智能体,从而允许表达这些数据集潜在的度量标准,这只要观察每类别 20 到 40 个样本就可以完成。最后,研究者可以将选择和采样的 GENEO 注入到神经网络的知识中。

图 2:整个实验的 Pipeline。

图 3:在 MNIST 数据集上选定的 IENEO。通过考虑在 GENEO 空间上定义的度量,我们可以选择能识别 MNIST 数据集的运算子。

图 4:通过 IENEO 选择和采样的度量学习。其中 A 为从 MNIST 数据集中采样的「7」和「5」,B、C、D 表示层级聚类结果。其中层级聚类通过使用不同维度的 IENEO 来度量验证样本属于「7」和「5」的距离。

图 5:IENEO 在 fashion-MNIST 和 CIFAR-10 上的度量学习。

参考链接:

https://cosmosmagazine.com/mathematics/novel-maths-could-bring-ai-to-next-level
https://www.eurekalert.org/pub_releases/2019-09/ccft-nmc082919.php

入门拓扑数学方法机器学习
2
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

拓扑学技术

莫比乌斯带,只有一个面与一个边,为拓扑学所研究之一类对象。 在数学里,拓扑学(英语:topology),或意译为位相几何学,是一门研究拓扑空间的学科,主要研究空间内,在连续变化(如拉伸或弯曲,但不包括撕开或黏合)下维持不变的性质。在拓扑学里,重要的拓扑性质包括连通性与紧致性。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~