「人工智能研学社· 强化学习组」第三期: 效率强者 - 异步方法

本期研读论文:Asynchronous Methods for Deep Reinforcement 

Learning (ICML 2016)

学习步骤:


  1. 研读材料

  2. 自学要点


【文章简介】

blob.png

Mnih 等人提出了四个强化学习方法的异步方法,包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中,异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程,所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同,异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例,A3C 能够在更快的速度下,表现得与之前的算法旗鼓相当,甚至更好。A3C 在连续动态控制问题上也取得了成功:包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中,随机的 3D 迷宫直接通过视觉输入,每一个章节中,玩家都要面对全新的迷宫,因此该算法也需要学习一个能够探索随机迷宫的指导性战略。


论文链接:https://arxiv.org/pdf/1602.01783.pdf


【其它阅读材料】

  1. Sutton new book Chapter 13, Policy Gradient Methods

  2. David Silver, Reinforcement Learning, Lecture 7

  3. Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)


推荐者介绍:


本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。 致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。 目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。

机器之心曾经发表过的介绍强化学习的文章:



加入机器之心强化学习小组:

对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:

  1. 找不到合适的学习资料

  2. 有学习动力,但无法坚持

  3. 学习效果无法评估

  4. 遇到问题缺乏讨论和解答的途径

因此,为了帮助“强化学习新手”进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

  • 面向人群:有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者

  • 学习形式:学习资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。

  • 加入方式:

  1. 添加机器之心小助手微信,并注明:加入强化学习组

    286904983071613429.png

  2. 完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)

  3. 小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

入群测试 QUIZ

1)教育背景 2)从事行业和职务 3)人工智能学习经历 4)强化学习学习经历

  1. 请解释:什么是 actor-critic 方法?

  2. 在异步方法中,为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程?

入门强化学习深度研学社理论DQNactor-critic model
返回顶部