Google AI 和 DeepMind 共同推出新强化学习智能体 Dreamer
使用强化学习有关人类是如何选择行动以实现目标的研究正在迅速取得进展。强化学习的无模型方法可以通过反复试验来预测成功行为,但需要大量的环境交互作用,因此限制了它们在现实环境中的实用性世界场景。Google AI 今天宣布其与 DeepMind 合作,共同推出了强化学习智能体 Dreamer,它可以从图像中学习世界运转的模型,并使用它来学习更「有远见」的行为。Dreamer 利用其世界模型通过模型预测的反向传播有效地学习行为。通过学习从原始图像计算紧凑模型状态,Dreamer 在仅使用一个 GPU 就可以并行地从数千个预测序列中高效学习; 而在给定原始图像输入的情况下,以 20 个连续控制任务为基准,它在性能、数据效率和计算时间上都达到了目前最好的水平。为促进强化学习的进一步发展,谷歌决定将源代码发布给研究社区。