DeepMind新论文:通过竞争实现紧急协调
DeepMind 今天发布了最新论文 Emergent Coordination Through Competition,以下是论文摘要:我们通过引入具有连续模拟物理学的具有挑战性的竞争性多智能体足球环境来研究强化学习者中合作行为的出现。我们证明,通过共同发挥分散的,基于人口的训练可以导致代理人的行为发展:从随机,简单的追球,最后显示合作的证据。我们的研究强调了在连续控制的大规模多智能体培训中遇到的几个挑战。特别是,我们证明了简单塑造奖励的自动优化,而不是自身有利于合作行为,可以导致长期的团队行为。我们进一步应用以游戏理论原则为基础的评估方案,该方案可以在没有预定义的评估任务或人类基线的情况下评估代理绩效。