「德州扑克 AI 之父」新论文 : 通过折扣后悔最小化解决不完全信息博弈游戏
近日,「德州扑克 AI 之父」CMU 计算机系博士生 Noam Brown 以及计算机系教授 Tuomas Sandholm 在 Arxiv 上发表了一篇题为《Solving Imperfect-Information Games via Discounted Regret Minimization》的论文,通过德州扑克基准平台来探讨不完全信息条件下的博弈策略问题。该论文介绍了 Counterfactual regret minimization(CFR)算法的变体,可以对先前的迭代进行折扣,并表现出比之前最先进的 CFR +类算法更强大的性能,在涉及重大错误的环境中表现得更加明显。