Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度学习作弊,用单个参数 fit 任何数据集,这篇 19 年的论文重新「火」了

一个参数画出大象。

据说,冯 · 诺依曼有次参加一个会议,某物理研究员在报告一个研究进展,用了一个非常复杂的模型,试图论证实验数据点都落在同一条曲线上,符合模型预期。于是冯 · 诺依曼就说了一句,还不如说这些点都在同一个平面上。最后,冯 · 诺依曼留下了一句名言:「With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.」

这就是冯 · 诺依曼经典的「四个参数画大象,五个参数鼻子晃」的故事。

2010 年,来自德国马克斯普朗克分子细胞生物学和遗传学研究所和欧洲分子生物学实验室的三位研究者发表的论文实现了四个参数画大象,具体如下:

图源:https://publications.mpi-cbg.de/Mayer_2010_4314.pdf

相同的思想,近日,一篇发表于 2019 年 4 月的老论文《 Real numbers, data science and chaos: How to fit any dataset with a single parameter 》,在推特上又引来一波讨论量。论文作者 Laurent Boué 现为微软高级机器学习科学家,他讲述了「如何使用单个参数拟合任何数据集」。

论文地址:https://arxiv.org/pdf/1904.12320.pdf

发帖者为普林斯顿博士生、DeepMind 研究科学家实习生 Miles Granmer,他表示,「该论文提供了一个具有单个参数的标量函数,并且这个函数是可微和连续的!」

对于这项研究,有人认为:「从技术上讲,这篇文章存在一些『作弊』,因为该论文使用了任意精度的浮点数。由于浮点数所需的位数非常少,因此本文可能是压缩表示的一个很好的候选者。 但它绝对不是『单一』参数。我同意这篇论文是一种将数据集编码为数字,然后将其解码回重建单个点的聪明方法。」

还有人对这项研究的拟合参数标准误差产生了兴趣,如果它是单个参数,误差将有多大?

还有人表示:「1 个参数的连续可微函数可以生成无限 VC 维族。这篇论文似乎是该技巧的某个版本。」
论文内容介绍

该论文介绍了如何通过具有单个实值参数的标量函数(连续、可微...)来近似化任何不同模态(时间序列、图像、声音...)的数据集。基于混沌理论的基本概念,研究者采用教学(pedagogical)方法来演示如何调整这个实值参数,以实现对所有数据样本的任意精度拟合。

现实世界的数据有各种各样的形状和大小,其模式包括从传统的结构化数据库模式到非结构化媒体源,如视频源和录音。然而,任何数据集最终都可以被认为是一个数值列表 X = [x_0, · · · , x_n] ,该列表描述了数据内容而忽略了数据底层模态。并且该论文旨在证明任何数据集 X 的所有样本都可以通过一个简单的微分方程重现:

其中 α ϵ R 是要从数据中学习的实值参数,x ϵ [0, · · · , n] 取整数值。(τ ϵ N 是一个常数,可有效控制所需的准确率)。按照「拟合大象」的传统,该研究首先展示了如何通过选择合适的α值生成不同的动物形状,如图 1 所示。

在演示完 f_α 可以生成任何类型的上述涂鸦绘图之后,该论文继续使用文字「Hello world」进行了展示,以进一步说明该方法的功能。下图 2 展示了如何使用精心选择的 α 值来生成复杂的高维声学信号,编码实际表达的是「Hello world」。

在图像这种数据模态上,随着专用硬件和新型神经网络架构的不断涌现,人们普遍认为可用的大规模标记训练数据已成为促使计算机视觉「成熟」的最重要因素之一。

在这种情况下,CIFAR-10 数据集被认为是衡量新学习算法性能的有力标准。该研究表明:如下图 3 所示,总是能够找到一个α值,使得 f_α能够构建出反映 CIFAR-10 类别的人工图像。

基于上述几个模态的例子,该论文得出结论:一个具有简单且可微公式的模型 f_α能够产生任何类型的语义相关散点图、音频或视觉数据(文本也类似),而只需要单个实值参数。这一点就引起了研究者们的质疑。

此外,该论文中阐述了该方法无法实现泛化的事实。这是因为该方法中所有信息都是被直接编码的,没有任何的压缩或「学习」。从数学的角度看,实数有无限多个,因此不应与编程语言实现的有限精度的数据类型混淆。基于此,f_α不可能实现真正的泛化,下图 9 就是一个例子。

对此,你有什么看法呢?

理论
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图论技术

图论是以“图”为研究对象的一个数学分支,是组合数学和离散数学的重要组成部分。图是用来对对象之间的成对关系建模的数学结构,由“顶点”(又称“节点”或“点”)以及连接这些顶点的“边”(又称“弧”或“线”)组成。值得注意的是,图的顶点集合不能为空,但边的集合可以为空。图可能是无向的,这意味着图中的边在连接顶点时无需区分方向。否则,称图是有向的。

推荐文章
暂无评论
暂无评论~