Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

路雪编译

Bengio等人提出新型循环架构,大幅提升模型泛化性能

近日,来自 Mila、哈佛大学等机构的研究者提出一种新型循环架构——循环独立机。它具备专门化特性,可以大幅提升模型在大量不同任务上的泛化性能。

模块化结构可以反映环境动态,学习这类结构可实现更好的泛化效果和对微小变化的稳健性。最近,来自 Mila、哈佛大学等机构的研究者提出循环独立机(Recurrent Independent Mechanism,RIM),这一新型循环架构包含多组循环单元,它们可以处理几乎独立的转换动态(transition dynamics),仅通过注意力瓶颈进行稀疏通信。此外,这些循环单元仅在最具相关性的时间步处进行更新。该研究证明,RIM 具备专门化(specialization)特性,并反过来大幅提升了模型在大量不同任务上的泛化性能。

模块化结构

世界的物理进程通常具备模块化结构,而把各个较简单的子系统组合起来有一定的复杂度。机器学习尝试发现并利用物理世界中的规律。尽管这些规律表现为统计学依赖关系(statistical dependency),但它们的底层逻辑是物理世界中的动态进程。这些进程通常是互相独立的,只存在偶尔交互。例如,我们可以将两个球的运动建模为两个独立的机制,尽管它们都经历了地球引力和彼此之间的弱引力。但是,它们可能偶尔才通过碰撞产生强交互。

独立或自主机制的概念在因果推断领域中有很强的影响力,它不仅应用于动态进程,还可用于时间无关数据集。例如,给出某地的海拔高度,则该地年平均温度的条件分布是因果机制的抽象(包括多个复杂的物理进程,如气压等),它独立于该地的海拔分。因此,这可套用到相同气候区中具备不同海拔分布的不同国家。

一个复杂的生成模型,不管它是否为时序模型,都可看作是独立机制或「因果」模块的合成体。在因果推断领域,这通常被认为是对此类模型所确定的变量执行局部干预(localized intervention)的先决条件 (Pearl, 2009)。人们认为,当一个模块出现变化时(如分布漂移),另一个模块可能保持稳健性或保持不变。你可以假设,如果大脑能够解决单个独立同分布任务以外的多个问题,那么学习可被灵活重用、合成和修改的独立机制进而学得模块化结构,无疑是一种经济实惠的方式。

在动态设置中,我们认为整个系统由多个相对独立的子系统构成,受力(force)和干预(intervention)的影响,这些子系统随着时间不断演化。学习智能体无需每次都对所有子系统付出同等的注意力:在制定决策或规划时,只有那些存在强交互的子系统才需要被联合考虑 (Bengio, 2017)。

这样的稀疏交互能够降低学习难度,因为无需一次性考虑那么多交互,这也减少了调整子系统时的不必要干预。按这种方式学得的模型更有可能捕捉到世界的合成生成结构(compositional generative structure)或因果结构,从而在多项任务上实现更好的泛化效果(这些任务中只有一小部分机制发生改变,大多数机制保持不变)。推动该研究的核心问题是:如何使机器学习方法学习独立且稀疏交互的循环机制,进而从模块化结构中获益。

具备稀疏交互的循环独立机

该研究提出的动态系统建模方法将整个模型分割成 k 个小的子系统(或模块),其中每一个都是能够捕捉动态的循环结构。研究者将这些子系统称作循环独立机(RIM),每个 RIM 具备不同的函数,这些函数基于数据自动学得。RIM k 在时间步 t 的状态为 h_(t,k),其中 t = 1, . . . , T。每个 RIM 具备参数 θ_k,所有时间步共享这些参数。

图 1:循环独立机图示。

该模型的每一步包含四个阶段(左图展示了两步)。第一阶段,RIM 生成一个 query,从当前输入中读取数据。第二阶段,使用基于注意力的竞赛机制(competition mechanism)根据编码视觉输入选择要激活的 RIM(右图),其中蓝色 RIM 为激活状态,白色 RIM 反之。第三阶段,激活 RIM 按照默认转换动态运行,而非激活 RIM 保持不变。第四阶段,RIM 之间使用注意力进行稀疏通信。

总体来看,研究者想让每个 RIM 默认处理自己独立的动态,与其他相关 RIM 和编码输入选中元素进行偶尔交互。参数总量可以很小,因为 RIM 可以专用于简单的子问题。这种专门化和模块化特性不仅具备计算和统计优势,还可以阻止单个 RIM 主导及建模复杂的合成机制。研究者期望,相比于训练一个大型同质神经网络,RIM 能够带来更稳健的系统。此外,模块化还说明,RIM 应该保持其独立功能,即使其他 RIM 发生改变。

实验

实验目标是,证明 RIM 能够改善模型在不同环境和/或模块化任务中的泛化效果。该研究不关注该方法是否超出高度优化的基线模型,而是想展示该方法面对大量不同任务时的通用性,且这些任务的环境是不断变化的。研究者按照以下顺序展示实验结果:基于时序模式、对象和二者解决泛化问题。

举一个 out-of-distribution 泛化的例子,研究者发现,使用 RIM 可以将休眠期长度从训练阶段的 50 扩展到测试阶段的 200,并保持完美性能(详见表 1),而基线方法(LSTM、NTM 和 RMC)的性能则出现显著下降。

表 1:在复制任务上的性能(左),在 sequential MNIST resolution 任务上的性能(右)。

研究者考虑了一个综合「弹跳球」任务,该任务中多个不同重量和大小的球基于牛顿物理学移动。这个任务非常适合 RIM,因为除了球与球之间偶尔发生碰撞,其他大部分时间内这些球都是独立运动的。在训练阶段,研究者使用 teacher forcing 在每个时间步预测下一帧。

研究者将 LSTM 和 R-NEM 作为基线模型,然后输出 rollouts,结果发现 RIM 能够更好地预测球的未来运动(示例见图 3、图 10 和图 4)。

图 3:预测弹跳球的运动。给定前 15 个真值帧,系统预测接下来 15 个时间步。实验证明 RIM 的性能优于 LSTM(黑色是预测结果,蓝色是真值)。注意 LSTM 预测结果的重影。

图 10:RIM 与 LSTM 基线模型的对比。在这 4 个不同实验中,研究者对比了 RIM 和两个不同的 LSTM 基线模型。在所有案例中,研究者发现 rollout 过程中,RIM 比 LSTM 更准确地捕捉到球的运动轨迹。

图 4:处理新型 Out-of-Distribution 变化。这里,研究者探讨了 RIM 和 LSTM 基线模型的性能对比情况。输入前 15 个真值帧,系统预测接下来 10 个时间步。在 rollout 阶段,RIM 能够更准确地预测球的动态变化,图中蓝色线表示 RIM 的交叉熵,紫色线表示 LSTM 的交叉熵。注意,当测试集对象与训练集不同时,RIM 的 Out-of-Distribution 泛化效果显著优于 LSTM。

接下来,研究者从 BabyAI 中选取了一个拾取物体的强化学习任务,即智能体必须在一堆物体中检索出目标物体,且这堆物体中存在干扰项。下图 5 说明,RIM 在该任务上的性能优于 LSTM。

图 5:模型对新干扰项的稳健性。左:在拾取目标物体的任务中,RIM 的性能优于 LSTM。右:当这堆物体中又加入新的干扰项时,二者的性能对比情况:RIM 优于 LSTM。

理论模块化结构循环独立机
6
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

独立同分布技术

在概率论与统计学中,独立同分布(缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~