摘要:
无监督学习中的生成式对抗网络和强化学习中的 actor-critic 方法都是出了名的难以优化。两个领域的实践者都积累了大量的策略缓和这些不稳定性,并改进训练。在此论文中,我们表示 GAN 可被视为在 actor 不能影响 reward 的环境中的 actor-critic 方法。我们通过为每一类模型进行稳定训练来检阅这一策略,无论是一般的模型还是特定的模型。我们也使用更复杂的信息流检查了一些对 GAN 和 RL 算法的拓展模型。我们期望通过重视这类连接,能够鼓励 GAN 和 RL 研究社区开发出更泛型、更可扩展的、更稳定的算法,从而对神经网络进行多层的优化,也期望我们的方法能给各个社区以启发。
论文地址:Connecting Generative Adversarial Networks and Actor-Critic Methods