石媛媛 陈绎泽发布

ICLR 2019论文解读:深度学习应用于复杂系统控制

引言

20 世纪,控制论、系统论、信息论,对工业产生了颠覆性的影响。继 2011 年深度学习在物体检测上超越传统方法以来,深度学习在识别传感(包含语音识别物体识别),自然语言处理领域里产生了颠覆性的影响。最近在信息论里,深度学习也产生了重要影响。使用深度学习可以对不同形式编码的信息进行自动解码。如今,深度学习再次影响控制论,传统控制论往往是模型驱动算法,需要设计复杂的模型和控制方案,而以数据驱动为核心的深度学习用作控制领域的春天即将到来,这将推动数十万亿的工业、服务业的进一步升级。通过深度学习控制,可以让机器人,能源,交通等行业效率显著提升。例如,使用深度学习进行智能楼宇控制,可以节约大楼 20% 的能耗,传统的控制需要多名专家 2 年的时间建立一个楼宇模型,深度学习可以利用楼宇历史数据在一天内得到超越传统方法的模型;在机器人控制和强化学习领域里,相比传统控制方法,本文提出的方法可以节约 80% 以上的运算时间并且提升 10% 以上的控制准确度。

深度学习控制行业刚刚兴起,还有很多的问题没有解决,还需要很多的理论突破。近期,华盛顿大学研究组在 ICLR 2019 发表了一篇深度学习控制的最新成果 [1],这是第一次将深度学习凸优化理论结合应用到最优控制理论中,在从理论层面保证模型达到全局最优解的同时,大幅提升了复杂系统控制的效率和准确度。该论文在公开评审中获得了 6/7/8 的评分,在所有 1449 submissions 中得分位列前 90 位 (top 6%)。在这里,论文的两位作者将亲自为我们解读其中的核心思想。

论文地址:https://openreview.net/forum?id=H1MW72AcK7&noteId=HylsgDCzeV

机器学习/强化学习与控制

自动控制与机器学习作为两个拥有深厚历史的学科,已经发展了数十年,并建立了各自较为完善的学科体系。在自动控制中的重要一环,是首先根据历史数据对控制系统进行输入-输出的端到端建模。目前广泛使用的系统辨识(system identification)方法主要有两种:一是使用线性/或分段线性模型来预测系统的(状态,控制变量)->(状态) 关系。这样做的好处是后续的优化问题是线性优化问题 (linear programming) 并可结合控制论中的线性二次型调节器 LQR(Linear Quadratic Regulator)等控制模型,易于求解并实现闭环最优控制。同时控制论较为注重系统的理论性质研究,如系统的李雅普诺夫稳定性,以及基于卡尔曼滤波等的最优状态估计等。但是线性模型很难准确地描述复杂系统的动态,且建模过程需要大量专家知识和调试。因为存在对物理对象的建模,这类方法也被称为基于模型的控制和强化学习 model-based control/reinforcement learning。第二种方法是使用一些较为复杂的机器学习模型,比如深度神经网络支持向量机 (SVM) 等对物理系统进行建模。相比线性模型,这些模型能够更为准确地捕捉系统输入-输出的动态关系。而在一般的(深度)强化学习算法中,通常研究者也会训练一个端到端的算法,由状态直接输出控制。由于不存在物理建模过程,这类方法也一般被称为 model-free control/reinforcement learning。但是这些复杂模型给后续的优化控制问题求解带来了困难。我们都知道深度神经网络,一般来说输出对于输入都是非凸的,包含很多局部最优点,所以在优化过程中很容易陷入局部最优情况。在对稳定性要求很高的系统控制情境下(比如电力系统控制,航天系统以及工业控制),这种多个局部最优解并且没有全局最优收敛性保证的情况是我们非常不愿看到的,也一定程度限制了目前深度模型在这些行业中的应用。同时,在当前的深度强化学习研究中,尽管在多个应用和领域中已经取得行业领先的控制和优化效果,但对模型的理论性质尚缺乏研究,同时需要大量标注的状态和决策数据以泛化模型的表征能力和应用场景 [2] (ICML 2018 tutorial and Annual Review of Control, Robotics and Autonomous Systems, Recht, Berkeley)。

图一:本文提出的输入凸的神经网络的(a)动态系统学习与(b)闭环控制过程。

在「Optimal control via neural network: a convex approach」一文中,作者提出了一种新的数据驱动的控制方法。该篇文章作出了结合 model-free control 与 model-based control 的一步重要尝试。在训练过程中,我们用一个输入凸 (input convex) 的神经网络来表达系统表达复杂的动态特性;在控制与优化过程中,我们就可以将训练好的神经网络作为动态系统的模型,求解凸优化问题从而得到有最优保证的控制输入。算法思路详见图一

基于输入凸神经网络最优控制框架

为了解决现有模型的不足,本文作者提出了一种新的系统辨识方法:基于输入凸的神经网络的系统辨识。建立在之前 Input Convex Neural Network (ICNN) [3] (ICML 2017, Amos et al., 2017, CMU) 的基础上,本文作者提出一种新型的 Input Convex Recurrent Neural Network (ICRNN) 用于具有时间关联的动态系统建模。不同于通用的神经网络结构,输入凸的神经网络要求所有隐藏层之间的权重矩阵非负,同时加入了对输入向量的负映射以及输入到隐藏层的直连层增加 ICNN 和 ICRNN 的表达能力。

作者在文章中理论证明了,输入凸神经网络 ICNN 和 ICRNN 可以表示所有凸函数(Theorem 1),并且其表达的效率比分段线性函数高指数级(Theorem 2)。两条性质保证所提出的网络架构能够很好地应用于优化与控制问题中用于对象建模与求解。               

在使用输入凸神经网络进行系统建模后,作者将系统模型嵌入到模型预测控制(Model Predictive Control)框架中,用于求解最优的系统控制值。因为使用了输入凸神经网络,这里的 MPC 问题是一个凸优化问题,使用经典的梯度下降方法就可以保证我们找到最优的控制策略。如果系统的状态或者控制输入包含约束条件(constraints),我们也可以使用投影梯度下降(Projected Gradient Method) 或者内点法进行求解。这样,使用 ICNN 对瞬态特性建模或使用 ICRNN 对时序过程建模并用于控制对输入优化求解,我们不仅能够满足控制论中对于最优解的性质的保证,同时也可以充分发挥深度模型的表征能力,即可作为一种适用于各领域的建模与控制方法。

图 3. 基于 ICNN 的 MuJoCo locomotion tasks 的控制结果。K=100,300,1000 对应 [4] 中基于模型的强化学习的算法设定,我们测试了在模型预测控制中,不同未来预测区间长度下各任务的回报。

应用一:机器人运动控制

作者首先将提出的深度学习控制框架应用于机器人的控制,使用的是 OpenAI 中的 MuJuCo 机器人仿真平台的四个前向运动任务。我们首先使用随机采样的机器人动作和状态的数据作为初始样本训练一个 ICNN 网络,并结合 DAGGER(AISTATS, Ross et al, 2011, CMU) 以在训练和控制过程中更好地探索和泛化。本文提出的方法相比目前的强化学习方法更加高效、准确。同目前最好的基于模型的强化学习算法 (model-based RL) [4] (2018 ICRA, Nagabandi et al., 2018, Berkeley) 相比,本文提出的方法仅仅使用 20% 的运算时间就可以达到比之前方法高 10% 的控制效果(图 3)。与无模型的深度强化学习算法如 TRPO, DDPG 往往超过 10^6 的样本数量相比,我们的控制方法可以从 10^4 量级的样本中学习到极为准确的动态模型并用于控制。同时我们还可以将该方法得到控制结果作为初始控制策略,然后随着机器人在环境中收集更多的样本,与无模型的强化学习方法 (model-free RL) 结合,在动态系统环境下实现更好的控制效果。

应用二:大楼的能源管理

同时,本文作者也将提出的深度学习控制框架应用于智能楼宇的供热通风与空气调节系统 (HVAC) 控制。我们通过建筑能耗仿真软件 EnergyPlus 得到一栋大楼的分时能耗数据及各个分区的传感器数据,并使用 ICRNN 建立楼宇输入特征(如室内温度,人流量,空调设定温度等)到输出特征(如能耗)的动态模型。在控制过程中,文章提出的模型可以非常方便地加入一系列约束,如温度可调节范围等。我们通过设计大楼在一定时间段内的温度设置值,并满足相应约束的前提下,来最优化楼宇的能耗。相比于传统的线性模型以及控制方法,使用 ICRNN 的控制方法在保证房间温度维持在 [19, 24] 摄氏度区间内的情况下,帮助大楼节约多于 20% 的能耗。在更大的温度波动区间内 ([16, 27] 摄氏度), 可以帮助建筑节约近 40% 能耗(图 4 左)。同时相比于传统神经网络模型直接用于系统建模,基于 ICRNN 的控制方法由于有控制求解的最优性保证,得到的温度设定值更加的稳定 (图 4 右中红线为 ICRNN 控制温度设置,绿线为普通神经网络控制温度设置)。

目前,华盛顿大学的 Paul Allen Center 电子工程与计算机大楼正在安装相应的传感器,并计划将该控制方案用于该建筑 HAVC 系统的实时控制。

随着 5G 时代的到来与物联网技术的进一步发展,越来越多的物理系统中(电力,交通,航天,工业控制等)将会有更多的智能传感器与数据流,本文提出的基于深度学习的控制方法也将会有更广阔的应用空间。

如有任何疑问,欢迎联系作者进行讨论。

联系方式:yyshi@uw.edu、yizechen@uw.edu

参考资料:

[1] Chen Yize*, Yuanyuan Shi*, and Baosen Zhang. "Optimal Control Via Neural Networks: A Convex Approach." To Appear in International Conference on Learning Representations (ICLR), 2019

[2] Recht, Benjamin. "A tour of reinforcement learning: The view from continuous control." Annual Review of Control, Robotics, and Autonomous Systems (2018).

[3] Amos, Brandon, Lei Xu, and J. Zico Kolter. "Input convex neural networks." International Conference on Machine Learning (ICML), 2017

[4] Nagabandi, Anusha, et al. "Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning." 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018.

[5] Ross, Stéphane, Geoffrey Gordon, and Drew Bagnell. "A reduction of imitation learning and structured prediction to no-regret online learning." Proceedings of the fourteenth international conference on artificial intelligence and statistics. 2011.

入门深度学习ICLR 2019
2
相关数据
OpenAI 机构

OpenAI是一家非营利性人工智能研究公司,旨在以惠及全人类的方式促进和发展友好的人工智能。OpenAI成立于2015年底,总部位于旧金山,旨在通过向公众开放其专利和研究与其他机构和研究人员“自由合作”。创始人的部分动机是出于对通用人工智能风险的担忧。

https://www.openai.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

卡尔曼滤波技术

卡尔曼滤波,也称为线性二次估计(LQE).它使用时域上一系列包含统计噪声和其他误差的观测量,对未知变量进行估计。这种方法因为对每个时间段上未知变量的联合概率分布做了估计,因此比基于单一观测值预测更加精确。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

控制论技术

控制论是一门跨学科研究, 它用于研究控制系统的结构,局限和发展。在21世纪,控制论的定义变得更加宽泛,主要用于指代“对任何使用科学技术的系统的控制”。由于这一定义过于宽泛,许多相关人士不再使用“控制论”一词。 控制论与对系统的研究有关,如自动化系统、物理系统、生物系统、认知系统、以及社会系统等等。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

预测区间技术

预测区间即预先推测或测定任何的连续块,除了点预测外还有另外一类预测问题,即区间预测。预测区间则是通过预测方法得到的目标的取值区间。预测是指在掌握现有信息的基础上,依照一定的方法与规律对未来的事情进行测算,以预先了解事情发展的结果。分配给对象(如表)的任何连续块叫区间。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

推荐文章
暂无评论
暂无评论~