Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

首次尝试!深度学习从原始视频中发现未知输入激励的动力系统的可解释物理定律

编辑/绿萝

由于深度学习的发展进步,从视频中提取可解释的物理定律引发了计算机视觉社区的兴趣,但仍然面临巨大的挑战。

控制方程(例如 PDE、ODE)的发现可能促进我们对复杂动力系统行为的理解、建模和预测。收集数据的日益丰富和机器学习的进步带来了动态系统建模的新视角。

近日,来自中国人民大学和中国科学院大学、美国东北大学的研究团队提出了一个端到端的无监督深度学习框架,根据录制的视频揭示运动物体呈现的显式动力学控制方程。

模拟动态场景的实验表明,所提出的方法能够提取封闭形式的控制方程并同时识别视频记录的多个动力系统的未知激励输入,这填补了文献中没有现有方法可用且适用于解决此类问题的空白。

该研究以「Distilling Governing Laws and Source Input for Dynamical Systems from Videos」为题,发布在预印平台 arXiv 上。

图片

控制方程的发现可能促进我们对复杂动力系统行为的理解、建模和预测。

对数据驱动的控制方程发现的研究,仍然主要集中在从给定的物理状态测量中建立数学模型。随着深度学习的进步,人们对从视频中发现物理规律的兴趣扩大了。

为了提高已发现物理定律的可解释性,学习显式动力学(例如,封闭形式的控制方程或其参数)最近在物理场景理解中变得越来越流行。然而,这些方法需要对物理定律或控制方程的结构有很强的先验知识。此外,对于那些方法,物理是在像素坐标中建模的,这限制了复杂动态系统(例如,ODE)的发现,其中物理状态需要在另一个物理坐标系中描述。

因此,直接从原始视频中发现控制方程仍然是一个巨大的挑战,尤其是在源输入未知的情况下。

图片

图 1:研究的由未知输入激发的动力系统

在这项工作中,研究人员提出了一个端到端的无监督深度学习框架,以从视频中揭示受未知输入影响的动力系统的闭式控制方程。要解决的任务,如图 1 所示,展示了所构建的范式,旨在同时提取运动物体的物理状态,揭示其受控的封闭式方程,并识别系统输入。

图片

图 2:所提出的端到端无监督深度学习的架构示意图,以同时揭示封闭形式的控制方程并从视频中识别动力系统的输入(单个运动物体情况)。

与现有的深度学习方法通常从运动物体的空间/像素坐标轨迹中发现物理规律不同,研究人员所提方法从回归物理坐标系中的物理状态揭示了显式控制方程,这使得发现更复杂的动力系统成为可能。此外,物理状态的提取不是独立于编码器-解码器和物理坐标系回归,而是在底层物理定律的约束下进行的。联合优化不仅有助于物理状态的提取,而且导致了封闭形式的控制方程和未知输入的识别。

所研究动力系统的发现结果如图 3 所示,其中揭示了物理轨迹、它们的控制方程和外部激励。这表明控制方程,尤其是它们的系数与基本事实完全相同。而缩放后 TMTD 系统,还表明且该方法能够处理出现多个运动物体的情况在场景中。

图片

图 3:所研究动力系统的发现结果。

接下来,研究人员通过从有噪声的视频中发现控制方程来进一步测试所提方法对噪声的稳健性。如图 4 所示。结果表明,由于噪声的影响,与从没有噪声的视频中发现相比,识别出的系统输入噪声更大,但控制方程和物理轨迹仍然未被发现和正确提取。

目前,直接从视频中发现具有未知输入的动态系统的控制方程方面的文献仍然很少。研究人员将图 2 中所示的坐标一致编码器解码器替换为传统的卷积编码器-解码器,并将得到的方法作为另一个基线。发现该网络能够从视频中提取物理定律。由于提取的潜在变量不能正确地表示基于位置的物理状态,该方法未能揭示潜在的物理规律。此外,传统的自动编码器无法保证运动物体的物理状态和真实位置之间的固定关系。

图片

图 4:基线的发现结果。

研究人员提出了一种端到端的无监督深度学习方案,从记录运动物体的原始视频中揭示出明确的可解释物理定律,这些运动物体代表了由未知输入激发的动力系统

该工作是首次尝试从具有未知输入激励的动态系统的原始视频中发现可解释的物理定律。但方法也存在一些局限性,例如,它不能处理非静止背景、带扭曲的视频和 3D 空间中的移动对象。研究人员将在正在进行和未来的研究中解决这些挑战。

论文链接:https://arxiv.org/abs/2205.01314

入门动力系统深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

动力系统技术

动态系统(dynamical system)是数学上的一个概念。动态系统是一种固定的规则,它描述一个给定空间(如某个物理系统的状态空间)中所有点随时间的变化情况。例如描述钟摆晃动、管道中水的流动,或者湖中每年春季鱼类的数量,凡此等等的数学模型都是动态系统。 在动态系统中有所谓状态的概念,状态是一组可以被确定下来的实数。状态的微小变动对应这组实数的微小变动。这组实数也是一种流形的几何空间坐标。动态系统的演化规则是一组函数的固定规则,它描述未来状态如何依赖于当前状态的。这种规则是确定性的,即对于给定的时间间隔内,从现在的状态只能演化出一个未来的状态。 若只是在一系列不连续的时间点考察系统的状态,则这个动态系统为离散动态系统;若时间连续,就得到一个连续动态系统。如果系统以一种连续可微的方式依赖于时间,我们就称它为一个光滑动态系统。

推荐文章
暂无评论
暂无评论~