一鸣、思源编译

拯救我的人工智障,Nature子刊分析动物大脑学习过程,启发神经网络研究

动物为什么生下来没多久就能学会又跑又跳?为什么我们设计的神经网络有时候智障到连猫和狗还分不清楚?是时候从动物身上学习设计神经网络的经验了。本论文从神经科学的角度出发,分析了动物快速学习的原因,并为人工智能研究提出了一些可以借鉴的思想。

Reddit 很多机器学习研究者都表示虽然起初大脑与人工神经网络(ANN)之间会有启发关系,但是随着机器学习的发展,ANN 更多是在数学与计算方面的创新,很多「拟人化」的概念都是高度抽象的数学表示方法。不过正因为动物的学习和机器的学习都希望处理相似的任务,那么相互之间还是可以借鉴的。

在这篇 Nature 论文中,作者表示大部分动物行为并非 ML 学习算法,也不是监督学习或非监督学习那种范式,而是将模块或回路编码在了基因组中。这样不论是发展迁移学习、还是利用模型架构编码先验知识,或者初始化限定学习方向,这篇论文都有一定的借鉴意义。

具体而言,作者表示动物生来就具有高度结构化的大脑连接,使它们可以快速学习。由于这种连接方式过于复杂,无法全部完整地记录在基因组中,其必须被「基因组瓶颈」压缩。这种「基因组瓶颈」的压缩方式可以给机器学习的快速学习机制带来启发。

论文链接:https://www.nature.com/articles/s41467-019-11786-6.pdf

什么是「机器」学习

在人工神经网络研究中,「学习」是一个技术术语,和神经科学或心理学使用的方式不同。在人工神经网络中,学习指的是一个提取结构的过程,从输入数据中提取统计学规律,并将这种结构编码进网络中。

这些网络参数包括了所有可以记录网络的信息。例如,在全连接神经网络中,假设有 N 个神经元,每个都有一个参数(如一个阈值),还有额外的 N^2 个参数用于表示神经元之间的连接强度(权重),则总共有 N + N^2 个自由参数。当然,当神经元数量增加时,全连接网络的参数量主要由 N^2 主导。

现在主要有三种经典的神经网络用于从数据中提取结构,并将其编码进网络参数中(如权重和阈值)。

  • 在监督学习中,数据主要由样本对组成:输入数据和对应的标签。学习的目标是找到合适的网络参数来正确预测输入样本对应的标签。

  • 在非监督学习中,数据没有标签。学习的目标在没有具体的说明规律是什么的情况下从数据中发现统计学规律。

  • 强化学习中,数据用于驱动行为,成功的行为会得到奖励信号。

监督学习的核心是关注「泛化性」。当参数数量增长时,网络的表示能力——即网络能够处理的输入输出映射关系的能力也随之增长。如果网络有太多的自由参数,则网络可能会过拟合数据分布。

在人工神经网络研究中,网络的灵活性和其需要训练的数据之间的关系被称为「偏差-方差权衡」。越是灵活的网路就越是性能好,但是没有足够的训练数据可能使得预测结果变得非常错误,甚至比一个简单的、性能相对较低的网络中的预测结果更差。

图 1:机器学习中的「偏差-方差权衡」可以被视为是一种形式化的「奥卡姆剃刀」。

什么是「动物」的学习

神经科学中,「学习」指的是由经验导致的长期行为变化。在这种定义下,学习就包含了动物的各种行为,例如经典的自发性条件反射以及其它一系列反射活动。尽管神经科学和机器学习中术语「学习」的使用会有一些重合,当某种情况下,术语的差异很容易导致混淆。

对于机器学习来说,为了确保泛化性,训练这样的神经网络需要大量的数据集,例如视觉问答模型大概需要 10 的 7 次方标注样本,或者说问答对。然而一年大概也有 10^7 秒,所以一个孩童需要每秒问一个问题,才能获得等量的标注数据,这显然是不可能的。所以,动物与机器的学习方法有很大的不同,它们并不是以一种有监督的方式来学习类别目标。

然而,在第一个 10^7 秒中,动物获得的无标注数据是非常庞大的,它们从视觉到语音也是多模态的数据。如果存在的话,如何参考这种无监督学习范式,并构建新的学习模型才能更高效地学习知识。

为什么动物学起来这么高效

动物学起来快吗?这是当然的,虽然人类需要花很长时间才能学会某些技能,但是很多动物在 10^6 秒甚至 10^5 秒内就能正常地活动与生存。松鼠在几个月后就能从一棵树跳到另一棵、小马在几小时内就能学会走路、而蜘蛛天生就会狩猎,这些都表明单靠无监督学习也不高效,很多能力都是天生的。

图 2:先天机制与学习策略在进化过程中的权衡。

其中 a 图表示如果先天机制与学习机制能获得相同的性能,那么动物肯定选择先天。b 图表示,如果先天+学习的混合策略能大幅度超越完全的先天,那么学习可能更受欢迎。

现在有个问题,到底先天是怎么来的,它能有助于 ML 高效学习吗?

大脑连接的制定者

ML 无监督学习无法做到高效学习,它的效果一般也没有监督学习好,那么我们为什么不探索先天模型,就像预训练那样。在动物的世界中,先天机制都是编码在基因组中。

具体而言,基因组为相互连接的神经系统绘制蓝图,这种连接包括指定哪些神经元相互连接、连接的强度又是多少。这些蓝图是经过数亿年进化选择出来的,在无数的个体上「做着实验」。这些蓝图指定的回路为先天行为、以及一生中发生的任何学习过程都提供了框架。

但是在复杂动物中,基因组并没有足够的能力指定所有神经元之间的连接。例如人类大约有 3×10^9 的核苷酸,它能编码超过 1GB 的信息。不过人类约有 10^11 神经元,每个神经元甚至有 10^3 个突触,这样算下来需要 3.7×10^15 bits 来指定 10^14 个连接。基因组携带的信息要比需要的信息低了 6 个数量级。

因此基因组只能指定某些构建的规则,这种规则可能是每个神经元连接最近的几个神经元,有点类似机器学习中的初始化。但更可能的情况是,基因编码的规则是某些特定的回路,然后这些回路能应用于不同部分的脑连接构建,这样既能降低编码信息的需求,同样也能提供足够的灵活性。

不管怎么说,如果能发现基因编码的某些回路模式,那么说不定真可以用在模型初始化中,从而加速学习过程。

动物学习如何帮助机器学习

本文之前已提出:动物之所以在出生后就能很快学会东西是因为他们高度结构化的大脑连接性。这种连接性搭建起了快速学习的脚手架。而天生的机制可以和学习机制一起工作。研究人员将人工神经网络和这一机制进行了类比,希望从中借鉴一些经验。

并非从一无所知开始

研究人员发现的第一个经验是:动物行为的一部分是天生的,而非从学习中习得。动物大脑不是空空如也的,而是有了很多泛用的学习算法,已经准备学习一切。一些 AI 研究者想象到,强烈的生存选择压力使得动物只学习用于生存需要的技能。动物有倾向地快速学习特定技能的想法和 AI 研究或认知科学中的「元学习」和「归纳偏置」的思想类似。

而天生机制的重要性表明,人工神经网络想要解决新的问题时,应当尽可能从已有的相关问题中构建解决方案。确实,这一观点和「迁移学习」,人工智能领域非常活跃的领域很相关。迁移学习要求将在一个任务中预训练得到的网络迁移到另一个相关的任务上,以便加速学习过程。

虽然人工神经网络中的迁移学习需要转移整个权重矩阵(或者网络中很重要的一个部分),作为开始的步骤。但是,动物大脑中的信息随着一代一代的传递而变得越来越小,因为信息必须通过基因瓶颈。经过基因瓶颈传递的信息需要进行筛选,仅保留大脑连接和可塑性规则中更为通用的部分,因此也更容易泛化。

神经科学提出,也许存在一种更高性能的机制,一种迁移学习的泛化机制,不仅能够在单一感知方式,如视觉任务中迁移工作,而是能够跨多感官方式地工作。

网络结构非常重要

另一个神经科学中发现的思想是:基因组不能编码整个数据表示或行为,也不能直接编码整个优化规则。基因组只能编码连接原则和规律,这些原则和规律会被行为和表示实例化。这说明连接的拓扑结构和网络架构是人工系统中的优化目标。

然而,现在的人工神经网络研究只发掘了可能网络架构的一小部分。更高性能、类似大脑皮层的架构仍待发现。

最近,一些新的研究工具也许可以发现大脑皮层的链接规律,启发人工神经网络的进一步实验。

参考 Reddit:https://www.reddit.com/r/MachineLearning/comments/ctu0aj/research_a_critique_of_pure_learning_and_what/

入门Nature人工神经网络
2
相关数据
神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~