Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

价值迭代 (网络)

价值迭代是一种计算最佳MDP(Markov Decision Process)策略及其价值的方法。价值迭代网络(VIN)是一种嵌入了“规划模块”的完全可微的神经网络。它可以学习规划,并适用于预测涉及基于规划的推理的结果,例如强化学习策略。 价值迭代网络(VIN)是一种嵌入了一个“规划模块”的完全可微的神经网络。 VIN可以学习如何规划,并适用于预测涉及基于规划的推理的结果,例如强化学习策略。

简介

价值迭代网络(VIN)是一种嵌入了一个“规划模块”的完全可微的神经网络。VIN可以学习如何规划,并适用于预测涉及基于规划的推理的结果,例如强化学习策略。

VIN的损失函数使用了增强学习中用于策略评估的回报函数/价值函数,在每次迭代中需要根据目前状态、可能的行为以及返回的信息,更新价值函数:

V_{n+1}(s)=max_a Q_n(s,a)\forall s,whereQ_n(s,a)=R(s,a)+\gamma \sum_{s'}P(s'|s,a)V_{n}(s')

这个过程实际上是一个马尔科夫决策过程(MDP)。因此,让M表示我们为其设计策略π的域的马科夫决策过程(MDP)。假设存在一些未知的马尔科夫决策过程$\overline M$,使得$\overline M$中的最优计划包含有关最初任务M中的最优策略的有用信息。但是,我们并不假设$\overline M$已知。VIN的设计理念是使政策具备学习和解决$\overline M$的能力,并将$\overline M$的解作为策略π中的一个要素。

用$\overline s∈\overline S,\overline a ∈\overline A,\overline R(\overline s,\overline a)$和$\overline P(\overline s‘ |\overline s,\overline a)$,代表$\overline M$中的状态,行为,回报函数和转移概率。为了促进M与M之间的连接,回报函数的取值R和转移概率P依赖于在M中得到的观察,即$\overline R = f_{R}(φ(s))$和$\overline P = f_{P}(φ(s))$,并将$f_{R}$和$f_{P}$作为政策学习过程的一部分。

输入回报$\overline R$,转移概率$\overline P$和上次迭代得到的价值函数V,最终我们可以得到输出价值函数$\overline V*$。下图右边的图片诠释了VI模块的结构,其价值迭代的实现主要是通过卷积层和面向信道的最大池化(Channel-wise Max Pooling)。

[图片来源:Tamar A.; Wu Y.; Thomas G.; Levine S.;Abbeel P. (2016).Value Iteration Networks. NIPS.]

VIN中的第二个元素是一个注意模块(attention module),它输出ψ(s),代表对状态s的观察。 然后向量ψ(s)作为附加特征添加到反应策略$π_re(a |φ(s),ψ(s))$中。 完整的网络架构上图左部分所示。

VIN基于上面定义的基于总体规划的策略,以VI模块作为规划算法。 要实现VIN,必须指定状态$\overline S$和行动空间$\overline A$,奖励函数和转移概率$f_{R}$和$f_{P}$以及注意函数(attention function),这些是VIN设计的部分。 对于某些任务选择合适的设计相对简单,而其他任务可能需要更多思考。由于奖励函数,转移概率和注意函数可以通过参数函数来定义,并且可以用整个政策进行训练, 因此可以先指定粗略的设计,然后通过端到端培训进行微调。

实现VIN则简单明了,因为它只是CNN的一种实现。

[描述来源:Tamar A.; Wu Y.; Thomas G.; Levine S.; Abbeel P. (2016). Value Iteration Networks. NIPS.]

发展历史

描述

价值迭代网络是由Tamar,Wu等人于2016年提出的,其初衷是为了让机器能更自动化,让其背后的算法具有更和好的泛化能力。人工智能已经在向通用人工智能发展,但神经网络等模型在新的环境和问题上的泛化能力却受到了重大的挑战,价值迭代网络创新性的设计出VI模块发挥“大脑”的决策作用,在其中将卷积神经网络(CNN)与经典的价值迭代算法结合起来实现规划过程,而不是使用人为设计的损失函数,是深度学习和增强学习的结合。

该文章获得了2016年NIPS的最佳论文奖,而其所基于增强学习在神经网络的实现则可以追溯到上世纪90年代。近几年深度学习取得了突破后有关强化学习的研究也随之受到众多关注,DeepMind机构2013年发表的论文显示其训练的卷积神经网络在七个游戏中的六个取得了有史以来的最好成绩。该模型使用了Q-Learning的变体,因此被称为深度Q网络(DQN),这即是广为人知的深度Q学习(DEEP Q-LEARNING)。最为大众所熟知的AlphaGo系列就是DeepMind深度强化学习的成果。

主要事件

年份

事件

相关论文/Reference

2013

DeepMind发表的论文显示其训练的卷积神经网络在七个游戏中的六个取得了有史以来的最好成绩,强化学习大获成功

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

2016

Tamar,Wu等人提出价值迭代网络

Tamar A.; Wu Y.; Thomas G.; Levine S.;Abbeel P. (2016).Value Iteration Networks. NIPS.

2017

Nogueira R和Cho基于强化学习和价值网络实现了维基百科链接导航,这是价值迭代网络比较实际的实现之一

Nogueira R.; Cho K. (2017).Task-Oriented Query Reformulation with Reinforcement Learning. arXiv preprint arXiv:1704.04572.

发展分析

瓶颈

作为强化学习的一个子类,价值迭代网络也存在和强化学习一样的问题,即无模型、采样效率底下所导致训练难度极大的问题。

未来发展方向

价值迭代网络印证了人工智能的未来发展方向——通用人工智能,更高程度的自主学习,如无监督学习,神经网络自己学习损失函数等。

Contributor: Yuanyuan Li

简介