张倩 路雪翻译

Facebook田渊栋开源ELF OpenGo

今天,FAIR 宣布开源 ELF OpenGo。在 Facebook 的研究中,用两千块 GPU 训练约两到三周后得到的围棋 AI,基本上超过了强职业的水平。在和韩国棋院合作进行的测试中,给这个 AI 单卡每步 50 秒搜索时间(每步搜索 8 万个局面),给人类棋手任意长时间思考,结果 AI 以 14 比 0 完胜。

今天,Facebook 人工智能研究院(FAIR)开源了围棋 AI ELF OpenGo,它基于现有的强化学习研究平台 ELF,击败了世界围棋冠军。Facebook 今日开源了其训练模型及代码。



受 DeepMind 的启发,Facebook 在今年早些时候开始了一项工作,使用其强化学习研究平台 ELF 复现 DeepMind 最新的 AlphaGoZero 成果。

Facebook 的目标是创建一个开源的系统实现,该系统将自学如何以人类专业选手或更高的水平下围棋。通过发布代码和模型,Facebook 希望能启发其他人思考该技术的新应用和研究方向。

ELF OpenGo 成功打败其他开源机器人和人类围棋选手。Facebook 和现在著名的 LeelaZero 进行了对比,采用了 LeelaZero 除 ponder 外的缺省配置,及 4 月 25 日的公开权重 (192x15, 158603eb),结果 Facebook 的 AI 以 200 比 0 获胜。Facebook 的 AI 还在与 4 名世界排名前 30 的人类围棋选手对弈时创下了 14 胜 0 负的记录。这些游戏都使用单个 GPU 运行,每一步大约耗时 50 秒,中国规则 7.5 komi,人类选手每一步思考时间不限。Facebook 很感谢 LeelaZero 团队的高质量工作,希望此次开源可以像 LeelaZero 那样有益于社区。感谢四名来自韩国棋院的围棋选手 Kim Jiseok、Shin Jinseo、Park Yeonghun 和 Choi Cheolhan 的积极参与。


Facebook 还对 ELF 框架进行了一些改进,更新后的框架效率更高、API 更友好,且支持数千台机器上的分布式计算。作为 PyTorch 的一部分,ELF 框架使得研究者用快捷灵活的实验尝试强化学习的不同想法更加简单。

ELF OpenGo 代码和模型地址:https://facebook.ai/elf

工程
1
相关数据
分布式计算技术
Distributed computing

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
神经网络模糊测试:将DNN应用于软件安全测试
微软研究院AI头条2
微信团队开源围棋AI技术PhoenixGo,复现AlphaGo Zero论文
李亚洲1
伯克利吴翼&FAIR田渊栋等人提出强化学习环境House3D
路雪
返回顶部