微软NeurIPS2020|通过批处理RL,战略探索和表示学习走向现实世界的强化学习
尽管强化学习的时间几乎与机器学习一样长,但仍然有很多探索和理解,以支持具有现实意义和广泛适用性的长期进步,微软研究人员在NeurIPS 2020接收的17 篇与 RL 相关的论文中强调了这一点。微软研究人员通过三个方面来探讨研究的选择:Batch RL,一个框架,代理可以在其中利用以往的经验,这对于现实世界的应用程序至关重要,特别是在安全关键的情况下;战略探索,算法识别和收集相关信息的机制,这对于成功优化绩效至关重要;表示学习,代理通过该学习总结和压缩输入,以实现更有效的探索,泛化和优化。