浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏
人工智能已在围棋这样的完美信息游戏上实现了远超人类的水平,但在信息未完全披露的多人对战游戏上还无法战胜人类。近年来,OpenAI 和 DeepMind 在 DOTA2 和星际争霸 2 上的尝试都难言成功。近日,来自浙江大学的研究人员提出了一种新方法,结合蒙特卡洛树搜索和 NFSP,大大提高了在信息不完整的大规模零和游戏上的表现。面对信息不完整的环境,浙大的研究人员提出了异步神经虚拟自我对弈(ANFSP)方法,让 AI 学会在多个虚拟环境中进行「自我博弈」,从而生成最优决策。他们的方法在德州扑克和多人 FPS 射击游戏中均取得了不错表现。