Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

安全探索

在强化学习领域,探索是帮助智能体学习环境所必需的,但这也可能很危险,因为这涉及到智能体无法很好地理解后果的动作。错误可能是灾难性的,比如摧毁智能体、困在无法脱离的状态或破环环境。在现实世界中,这样的错误可能产生很高的成本或带来危险(比如使用学习算法来管理核电站的情况)。

简介

在强化学习领域,探索是帮助智能体学习环境所必需的,但这也可能很危险,因为这涉及到智能体无法很好地理解后果的动作。错误可能是灾难性的,比如摧毁智能体、困在无法脱离的状态或破环环境。在现实世界中,这样的错误可能产生很高的成本或带来危险(比如使用学习算法来管理核电站的情况)。

一种常用方法是定义安全域(不管是在马尔可夫决策过程(MDP)中还是在连续状态空间中),并始终保持在安全域中以避免出现灾难。使用这一方法的研究可能需要不合理的规律性假设等,将动作限制在安全域中可能会排除到达最终状态的可能性。 

  1. 在 [1] 中,作者延展了在 Lyapunoy 稳定性验证上的控制论的结果,并展示了如何使用该动态的统计模型来获得具有可证明的稳定性证明的高性能控制策略。他们基于一个高斯过程先验证明可以有效且安全地收集数据以学习动态,并由此提升控制性能和延展状态空间的安全域。所得到的算法可以在一个模拟的倒立摆上安全地优化神经网络策略。 
  2. 在 [2] 中,作者提出了一种基于 Hamilton-Jacobi 可达性的通用安全框架,可与任意学习算法协同使用。他们还引入了一种贝叶斯机制,改进了系统获取新证据时的安全分析。所得到的控制规则仅会在计算出的安全保证需要时或计算出的保证由于新观察的出现而衰减时进行干预。他们在四旋翼飞行器上通过实验展示了所提出的框架的效果。
  3. 在 [3] 中,作者限制了符合条件的策略的空间,使得其仅以用户指定的某个概率(被称为安全层级)保留遍历性(ergodicity)。这能在学习 MDP 的动态的同时学习如何安全地行动。这个方法需要系统的准确概率模型,还需要在每个时间步骤求解一个大型的线性程序,即使对较小的状态空间而言也有很高的计算要求。 
  4. 在 [4] 中,作者使用一个高斯过程先验基于一个未知的先验、取决于状态和动作的安全限制探索了有限 MDP。他们开发了一个算法,可在明确考虑了可达性的同时谨慎地探索安全的状态和动作,并确保其不会在没有安全出路的情况下被困在任何状态。他们演示了该方法在地形探索车上的表现。

在风险敏感型 MDP、稳健 MDP 和风险受控型强化学习方面也有一些相关研究。[5] 的作者通过机会约束(即在累积损失的条件风险值(CVaR)上的约束)来表征风险。[6] 的作者提出了一个框架,让用户可直接将概率约束施加到算法返回的解上。 

在 DON 设置中,研究者还使用内在恐惧惩罚来塑造奖励,以避免灾难性地遗忘之前访问过的灾难状态,但他们不保证能做到这一点 [7]。 

在 [8] 中,研究者提出了一种用于安全高效的强化学习的自动方法,可以同时学习一个前向策略和一个重置策略,其中重置策略可为后续的尝试重置环境。通过学习用于重置策略的价值函数,他们能自动决定前向策略进入不可逆状态的时机,从而能提供不确定性已知的安全中止。

发展分析

瓶颈

有理论保证的方法计算速度慢或有太过严格的假设。

未来发展方向

这个领域得到的关注正越来越多,深度学习方法正越来越受青睐。

Contributor: Melody Y. Guan

Melody 正在斯坦福大学攻读博士学位,研究兴趣包括机器学习隐私、安全、可解释性和公平。她之前曾在谷歌大脑从事过深度学习和强化学习研究工作。她也有在 D. E. Shaw 从事金融交易的经历,并从事过基因编辑和计算生物学研究。Melody 拥有哈佛大学统计学硕士学位和化学与物理学学士学位。她曾在国际物理、化学和生物奥林匹克竞赛中获奖,并被邀参加加拿大国际数学奥林匹克训练营。她爱好唱歌、钢琴、远足、科幻写作和新闻报道。


Reference:

  1. Berkenkamp, F., Turchetta, M., Schoellig, A. P., & Krause, A. (2017). Safe Model-based Reinforcement Learning with Stability Guarantees. NIPS. 
  2. Fisac, J. F., Akametalu, A. K., Zeilinger, M. N., Kaynama, S., Gillula, J., & Tomlin, C. J. (2017). A General Safety Framework for Learning-Based Control in Uncertain Robotic Systems. arXiv preprint arXiv:1705.01292.
  3. Moldovan, T. M., & Abbeel, P. (2012). Safe exploration in Markov decision processes. ICML. 
  4. Turchetta, M., Berkenkamp, F., & Krause, A. (2016). Safe exploration in finite Markov decision processes with Gaussian processes. NIPS.
  5. Chow, Y., Ghavamzadeh, M., Janson, L., & Pavone, M. (2015). Risk-constrained reinforcement learning with percentile risk criteria. JMLR. 
  6. Thomas, P. S., da Silva, B. C., Barto, A. G., & Brunskill, E. (2017). On Ensuring that Intelligent Machines Are Well-Behaved. arXiv preprint arXiv:1708.05448.
  7. Lipton, Z. C., Kumar, A., Gao, J., Li, L., & Deng, L. (2016). Combating Deep Reinforcement Learning’s Sisyphean Curse with Reinforcement Learning. arXiv preprint arXiv:1611.01211. 
  8. Eysenbach, B. and Gu, S. and Ibarz, J. and Levine, S. (2018). Leave no Trace: Learning to Reset for Safe and Autonomous Reinforcement Learning. ICLR.
简介