随着神经元数量的增加,人工智能模型的训练和计算成本都变得非常高昂。有没有一种模型能够既实现类似于人脑的神经模拟,又速度快成本低呢?
在自动驾驶等许多重要应用中,数据都是实时动态的,并且包含一些意外情况。为了高效应对实时数据,去年 MIT 的研究者受生物神经元启发设计了一种新型「Liquid」神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。之所以将这种灵活的算法命名为「Liquid」神经网络,是因为其能像「液体」一样改变其底层的数学方程以持续适应新的输入数据。
我们可以将「liquid」神经网络理解为是一类具有灵活性、鲁棒性的机器学习模型,它可以在工作中学习,并适应不断变化的外部条件,可用于驾驶、飞行等安全性至关重要的任务。
所谓灵活性,是指「liquid」神经网络对多种任务都适合:例如对涉及时间序列的任务能够做出更好的决策,其中包括对大脑和心脏的监测、天气和股票价格的预测等。
但随着神经元和突触数量的增加,模型的计算成本剧增,一些复杂的数学问题需要计算大量的步骤才能得到最终的解决方案。高昂的成本成为高性能神经网络面对的重要挑战。
现在,MIT 的「liquid」神经网络团队发现了缓解这一瓶颈的方法,即求解两个神经元通过突触相互作用背后的微分方程。基于此,他们提出了一种快速高效的新型人工智能算法 CfC(closed-form continuous-depth networks),其具有与 liquid 神经网络相同的特征——灵活性、因果性、鲁棒性和可解释性——但速度更快,且可扩展。
论文地址:https://www.nature.com/articles/s42256-022-00556-7
代码地址:https://github.com/raminmh/CfC
论文作者之一、MIT 的教授 Daniela Rus 介绍道:「新机器学习模型 CfC 用一个闭合的(closed form)近似形式取代了定义神经元计算的微分方程,同时保留了 liquid 网络的特性,而不需要数值积分。」CfC 模型因此具有因果性、紧凑性、可解释性,并且可以高效地进行训练和预测。
这种 closed-form 的近似方法让该研究成功求解了描述神经元和突触相互作用的微分方程,而这是自 1907 年以来首次攻克这一数学难题,将让神经网络的研究获得质的飞跃。论文第一作者、MIT CSAIL 研究科学家 Ramin Hasani 也在推特上激动地发文称解决了这个百年难题。
CfC 模型最大的优点也是灵活性,可用于需要长期洞察数据的任务。相比于大多数固定的传统模型,CfC 紧凑且适应性强。
在模型性能方面,CfC 在一系列任务上都优于当前的 SOTA 模型,在通过运动传感器识别人类动作、模拟步行机器人的物理动力学建模以及基于事件的序列图像处理等多个任务上都具有更高的处理速度和性能。
下图是与其他几种经典模型的性能比较结果:
与基于微分方程的对应模型相比,CfC 在训练和推理方面速度要快 1 到 5 个数量级。更重要的是,与基于普通微分方程的连续网络相比,CfC 可以很好地进行扩展。最后,由于 CfC 模型源自 liquid 网络,与先进的循环神经网络模型相比,CfC 在时间序列建模方面表现出良好的性能。
微分方程使我们能够计算事件在演化过程中的状态,使用 CfC 神经网络,人们可以在任意时间计算这个方程。由于不需要一步步求解微分方程,因此计算速度也快得多。
想象一下,如果一个端到端的神经网络以安装在汽车上的摄像头接收数据作为输入,以汽车的转向角为输出,那么自动驾驶领域的一些问题就迎刃而解。
2020 年,MIT 的团队就通过使用具有 19 个节点的「liquid」神经网络解决了这个问题——以 19 个神经元加上一个小型感知模块来驱动汽车。以少量神经元解决复杂问题,这意味着「liquid」神经网络会速度更快,计算成本更低。
从这个角度讲,closed-form 微分方程对推进人工智能系统的研究具有深远的影响。「当我们对神经元和突触的通信进行 closed-form 的描述时,我们可以构建具有数十亿个细胞的大脑计算模型,由于神经科学模型的计算复杂性很高,这种能力在今天是不可能的。而 closed-form 的方程有助于实现这种宏大的模拟,为我们理解智能开辟了新的研究途径」,Ramin Hasani 说道。
此外,已有研究表明 Liquid CfC 模型可以在一个环境中从视觉输入中学习任务,并将其学到的技能迁移到一个全新的环境中,而无需额外的训练。这被称为分布外泛化,是人工智能研究最基本的挑战之一。
我们来看一下 CfC 在一些具体任务上的实验结果。
在一项医学预测任务中,CfC 在 8000 名患者的样本中预测速度提高了 220 倍。
在医学数据集 PhysioNet 上各模型执行预测任务的性能。
在情感分析方面,该研究在互联网电影数据集 IMDB 上测试了 CfC 模型和其他一些经典模型的性能,结果如下:
该研究还让几种模型模拟步行机器人的物理动力学,其中 CfC 模型的性能显著优于其他基线模型:
对于这项解决神经网络难题的研究,波音子公司 Aurora Flight Sciences 的人工智能和机器学习小组负责人 Sildomar Monteiro 博士评论道:「近来神经网络架构(例如神经 ODE 和「liquid」神经网络)具有一种特殊的隐藏层,这种隐藏层由表示无限潜在状态的特定动力系统组成。这些隐式定义的模型获得了 SOTA 性能,并且所需的参数比传统架构少得多。然而,由于训练和推理所需的高计算成本,它们的实际采用受到限制。而 MIT 的新研究显著提高了这类神经网络的计算效率,这将被广泛应用于与安全有关的现实任务中。」
参考链接:
https://twitter.com/search?q=Ramin%20Hasani&src=typed_query
https://www.csail.mit.edu/news/solving-brain-dynamics-gives-rise-flexible-machine-learning-models