Richard S. Sutton 教授博士毕业于马萨诸塞大学安姆斯特分校,现任阿尔伯塔大学计算机科学教授。Sutton 教授被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献,包括:时间差分学习(temporal difference learning)、策略梯度方法(policy gradient methods)、Dyna 架构
Richard S. Sutton 教授博士毕业于马萨诸塞大学安姆斯特分校,现任阿尔伯塔大学计算机科学教授。Sutton 教授被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献,包括:时间差分学习(temporal difference learning)、策略梯度方法(policy gradient methods)、Dyna 架构