「多巴胺」来袭！谷歌推出新型强化学习框架Dopamine

今日，谷歌发布博客介绍其最新推出的强化学习新框架 Dopamine，该框架基于 TensorFlow，可提供灵活性、稳定性、复现性，以及快速的基准测试。

GitHub repo：https://github.com/google/dopamine

在过去几年里，强化学习研究取得了多方面的显著进展。这些进展使得智能体能够以超越人类的水平玩游戏，其中比较可圈可点的例子包括：DeepMind 的 DQN 在 Atari 游戏上的表现、AlphaGo、AlphaGo Zero 以及 Open AI Five。具体来说，在 DQN 中引入重播记忆（replay memory）使得智能体能够利用先前的经验，大规模分布式训练使得智能体能够将学习过程分配给多个工作线程（worker），分布式方法使得智能体能够建模完整的分布，而不仅仅是它们的期望值，从而了解它们所在环境的完整情况。这种进步非常重要，因为算法催生的这些进展还可用于其他领域，如机器人学（参见：前沿 | 谷歌提出 Sim2Real：让机器人像人类一样观察世界）。

通常来讲，取得此类进展需要在设计上进行快速迭代（通常没有明确的方向），打破已有方法的结构。然而，多数现有强化学习框架并不同时具备可让研究者高效迭代 RL 方法的灵活性和稳定性，因此探索新的研究方向可能短期内无法获得明显的收益。再者，复现现有框架的结果通常太过耗时，可能会导致科学复现性问题。

今天，谷歌介绍了一款基于 TensorFlow 的新框架，旨在为强化学习研究者及相关人员提供具备灵活性、稳定性及复现性的工具。该框架的灵感来自于大脑中奖励–激励行为的主要组成部分「多巴胺」（Dopamine），这反映了神经科学和强化学习研究之间的密切联系，该框架旨在支持能够推动重大发现的推测性研究。谷歌还发布了一组相关的 Colab（https://github.com/google/dopamine/blob/master/dopamine/colab/README.md），以说明该框架的使用方法。

易用性

清晰性（clarity）和简明性（simplicity）是该框架设计过程中的两个关键考量因素。谷歌提供的代码很紧凑（大约 15 个 Python 文件）且记录良好。原因在于谷歌研究人员专注于街机模式学习环境（ALE，一个成熟、已被充分了解的基准）和四个基于价值的智能体：DQN、C51、精心设计的 Rainbow 智能体简化版和 Implicit Quantile Network 智能体（上个月才在 ICML 大会上得到展示）。谷歌希望这一简明性特点可使研究者容易理解智能体的内在工作原理，快速尝试新想法。

复现性

谷歌非常看重强化学习研究中的复现性。因此，谷歌提供了其代码的完整测试；这些测试见文档附表。此外，谷歌的实验框架遵循 Machado 等人（2018）关于利用 ALE 标准化经验评估的推荐方法。

基准测试

对于新研究者来说，对自己的想法进行快速的基准测试是非常重要的。谷歌提供四个智能体的完整训练数据，包括 ALE 支持的 60 个游戏，格式为 Python pickle 文件（对于使用谷歌框架训练的智能体）和 JSON 数据文件（用于对比其他框架训练的智能体）。谷歌还提供了一个网站，研究者可以使用该网站对所有提供智能体在所有 60 个游戏中的训练运行进行快速可视化。下图即谷歌的 4 个智能体在 Seaquest 上的训练运行（Seaquest 是 ALE 支持的 Atari 2600 游戏之一）。

谷歌的 4 个智能体在 Seaquest 上的训练运行。x 轴表示迭代，每个迭代是一百万个游戏帧（实时游戏 4.5 小时）；y 轴是每次游戏获取的平均分。阴影区域表示 5 个独立运行的置信区间。

谷歌还提供利用这些智能体训练的深度网络、原始统计日志以及用于 Tensorboard 可视化的 TensorFlow 事件文件。相关地址：https://github.com/google/dopamine/tree/master/docs#downloads

谷歌希望其框架的灵活性和易用性能够帮助研究者尝试新想法。谷歌已经在研究中使用了该框架，发现它可使很多想法快速迭代，具备很强的灵活性。谷歌期待看到社区使用这一框架。

原文链接：https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html2

工程谷歌开源框架强化学习

相关数据

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序，也是第一个打败围棋世界冠军的计算机程序，可以说是历史上最强的棋手。技术上来说，AlphaGo的算法结合了机器学习（machine learning）和树搜索（tree search）技术，并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索（MCTS：Monte-Carlo Tree Search），以价值网络（value network）和策略网络（policy network）为指导，其中价值网络用于预测游戏的胜利者，策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的，神经网络的输入是经过预处理的围棋面板的描述（description of Go board）。

来源： Deepmind

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

机器人技术技术

机器人学（Robotics）研究的是「机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。机器人可以分成两大类：固定机器人和移动机器人。固定机器人通常被用于工业生产（比如用于装配线）。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成，这也是人工智能领域最早的终极目标之一。

来源：机器之心

置信区间技术

在统计学中，一个概率样本的置信区间（Confidence interval），是对这个样本的某个总体参数的区间估计（Interval Estimation）。置信区间展现的是，这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是，声称总体参数的真实值在测量值的区间所具有的可信程度，即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说，如果在一次大选中某人的支持率为55%，而置信水平0.95上的置信区间是(50%, 60%)，那么他的真实支持率落在50%和60%之区间的机率为95%，因此他的真实支持率不足50%的可能性小于2.5%（假设分布是对称的）。

来源：Wikipedia

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心