行业内参

AI Daily

AI Daily 快讯 · 2020/03/10

较当前SOTA智能体性能表现更佳，Facebook提出Other-Play新型学习算法

在论文《“Other-Play” for Zero-Shot Coordination》中，来自 Facebook AI 研究院的学者提出一种名为 Other-Play（OP）的新型学习算法，通过寻找更鲁棒的策略以及利用潜在问题中已知的对称性，该算法能够增强自我对决。他们从理论和实验两方面描述了 OP 算法的特征。研究者探究了合作型卡牌游戏花火（Hanabi），结果证明当 OP 智能体与其他独立训练的智能体放在一起时会取得更高的分数。此外，初步研究结果显示，与当前 SOTA SP 智能体相比，本文中的 OP 智能体与人类玩家成对出现时也会取得更高的平均分数。

AM 12:00arxiv.org

登录后评论