较当前SOTA智能体性能表现更佳,Facebook提出Other-Play新型学习算法
在论文《“Other-Play” for Zero-Shot Coordination》中,来自 Facebook AI 研究院的学者提出一种名为 Other-Play(OP)的新型学习算法,通过寻找更鲁棒的策略以及利用潜在问题中已知的对称性,该算法能够增强自我对决。他们从理论和实验两方面描述了 OP 算法的特征。研究者探究了合作型卡牌游戏花火(Hanabi),结果证明当 OP 智能体与其他独立训练的智能体放在一起时会取得更高的分数。此外,初步研究结果显示,与当前 SOTA SP 智能体相比,本文中的 OP 智能体与人类玩家成对出现时也会取得更高的平均分数。