Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

解决神经网络的百年难题,MIT新模型Liquid CfC让模拟大脑动力学成为可能

随着神经元数量的增加,人工智能模型的训练和计算成本都变得非常高昂。有没有一种模型能够既实现类似于人脑的神经模拟,又速度快成本低呢?

在自动驾驶等许多重要应用中,数据都是实时动态的,并且包含一些意外情况。为了高效应对实时数据,去年 MIT 的研究者受生物神经元启发设计了一种新型「Liquid」神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。之所以将这种灵活的算法命名为「Liquid」神经网络,是因为其能像「液体」一样改变其底层的数学方程以持续适应新的输入数据。

图片

我们可以将「liquid」神经网络理解为是一类具有灵活性、鲁棒性的机器学习模型,它可以在工作中学习,并适应不断变化的外部条件,可用于驾驶、飞行等安全性至关重要的任务。

所谓灵活性,是指「liquid」神经网络对多种任务都适合:例如对涉及时间序列的任务能够做出更好的决策,其中包括对大脑和心脏的监测、天气和股票价格的预测等。

但随着神经元和突触数量的增加,模型的计算成本剧增,一些复杂的数学问题需要计算大量的步骤才能得到最终的解决方案。高昂的成本成为高性能神经网络面对的重要挑战。

现在,MIT 的「liquid」神经网络团队发现了缓解这一瓶颈的方法,即求解两个神经元通过突触相互作用背后的微分方程。基于此,他们提出了一种快速高效的新型人工智能算法 CfC(closed-form continuous-depth networks),其具有与 liquid 神经网络相同的特征——灵活性、因果性、鲁棒性和可解释性——但速度更快,且可扩展。

图片

  • 论文地址:https://www.nature.com/articles/s42256-022-00556-7

  • 代码地址:https://github.com/raminmh/CfC

论文作者之一、MIT 的教授 Daniela Rus 介绍道:「新机器学习模型 CfC 用一个闭合的(closed form)近似形式取代了定义神经元计算的微分方程,同时保留了 liquid 网络的特性,而不需要数值积分。」CfC 模型因此具有因果性、紧凑性、可解释性,并且可以高效地进行训练和预测。

图片

这种 closed-form 的近似方法让该研究成功求解了描述神经元和突触相互作用的微分方程,而这是自 1907 年以来首次攻克这一数学难题,将让神经网络的研究获得质的飞跃。论文第一作者、MIT CSAIL 研究科学家 Ramin Hasani 也在推特上激动地发文称解决了这个百年难题。

图片

CfC 模型最大的优点也是灵活性,可用于需要长期洞察数据的任务。相比于大多数固定的传统模型,CfC 紧凑且适应性强。

图片

在模型性能方面,CfC 在一系列任务上都优于当前的 SOTA 模型,在通过运动传感器识别人类动作、模拟步行机器人的物理动力学建模以及基于事件的序列图像处理等多个任务上都具有更高的处理速度和性能。

下图是与其他几种经典模型的性能比较结果:

图片

与基于微分方程的对应模型相比,CfC 在训练和推理方面速度要快 1 到 5 个数量级。更重要的是,与基于普通微分方程的连续网络相比,CfC 可以很好地进行扩展。最后,由于 CfC 模型源自 liquid 网络,与先进的循环神经网络模型相比,CfC 在时间序列建模方面表现出良好的性能。

微分方程使我们能够计算事件在演化过程中的状态,使用 CfC 神经网络,人们可以在任意时间计算这个方程。由于不需要一步步求解微分方程,因此计算速度也快得多。

想象一下,如果一个端到端的神经网络以安装在汽车上的摄像头接收数据作为输入,以汽车的转向角为输出,那么自动驾驶领域的一些问题就迎刃而解。

2020 年,MIT 的团队就通过使用具有 19 个节点的「liquid」神经网络解决了这个问题——以 19 个神经元加上一个小型感知模块来驱动汽车。以少量神经元解决复杂问题,这意味着「liquid」神经网络会速度更快,计算成本更低。

从这个角度讲,closed-form 微分方程对推进人工智能系统的研究具有深远的影响。「当我们对神经元和突触的通信进行 closed-form 的描述时,我们可以构建具有数十亿个细胞的大脑计算模型,由于神经科学模型的计算复杂性很高,这种能力在今天是不可能的。而 closed-form 的方程有助于实现这种宏大的模拟,为我们理解智能开辟了新的研究途径」,Ramin Hasani 说道。

图片

此外,已有研究表明 Liquid CfC 模型可以在一个环境中从视觉输入中学习任务,并将其学到的技能迁移到一个全新的环境中,而无需额外的训练。这被称为分布外泛化,是人工智能研究最基本的挑战之一。

我们来看一下 CfC 在一些具体任务上的实验结果。

在一项医学预测任务中,CfC 在 8000 名患者的样本中预测速度提高了 220 倍。

图片

在医学数据集 PhysioNet 上各模型执行预测任务的性能。

在情感分析方面,该研究在互联网电影数据集 IMDB 上测试了 CfC 模型和其他一些经典模型的性能,结果如下:

图片

该研究还让几种模型模拟步行机器人的物理动力学,其中 CfC 模型的性能显著优于其他基线模型:

图片

对于这项解决神经网络难题的研究,波音子公司 Aurora Flight Sciences 的人工智能机器学习小组负责人 Sildomar Monteiro 博士评论道:「近来神经网络架构(例如神经 ODE 和「liquid」神经网络)具有一种特殊的隐藏层,这种隐藏层由表示无限潜在状态的特定动力系统组成。这些隐式定义的模型获得了 SOTA 性能,并且所需的参数比传统架构少得多。然而,由于训练和推理所需的高计算成本,它们的实际采用受到限制。而 MIT 的新研究显著提高了这类神经网络的计算效率,这将被广泛应用于与安全有关的现实任务中。」

参考链接:

https://twitter.com/search?q=Ramin%20Hasani&src=typed_query

https://www.csail.mit.edu/news/solving-brain-dynamics-gives-rise-flexible-machine-learning-models

理论神经科学
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

动力系统技术

动态系统(dynamical system)是数学上的一个概念。动态系统是一种固定的规则,它描述一个给定空间(如某个物理系统的状态空间)中所有点随时间的变化情况。例如描述钟摆晃动、管道中水的流动,或者湖中每年春季鱼类的数量,凡此等等的数学模型都是动态系统。 在动态系统中有所谓状态的概念,状态是一组可以被确定下来的实数。状态的微小变动对应这组实数的微小变动。这组实数也是一种流形的几何空间坐标。动态系统的演化规则是一组函数的固定规则,它描述未来状态如何依赖于当前状态的。这种规则是确定性的,即对于给定的时间间隔内,从现在的状态只能演化出一个未来的状态。 若只是在一系列不连续的时间点考察系统的状态,则这个动态系统为离散动态系统;若时间连续,就得到一个连续动态系统。如果系统以一种连续可微的方式依赖于时间,我们就称它为一个光滑动态系统。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~