英特尔 ICML 新作:协作进化强化学习框架
英特尔近日发布了他们最新被 ICML 接受的论文新作:Collaborative Evolutionary Reinforcement Learning。以下是论文摘要:深度强化学习算法已成功应用于一系列具有挑战性的控制任务。然而,这些方法通常难以实现有效的探索,并且对超参数的选择极其敏感。一个原因是大多数方法使用其操作策略的嘈杂版本来探索 - 从而限制了探索的范围。在本文中,我们介绍了协作进化强化学习(CERL),这是一个可扩展的框架,包含一系列策略,可同时探索和利用解决方案领域的不同区域。一系列学习者 - 通常是经过验证的算法,如 TD3--可以在不同的时间范围内进行优化,从而实现这种多样化的产品组合。所有学习者都参与并使用共享重放缓冲区来实现更高的样本效率。计算资源是动态分配的,以支持最佳学习者作为在线算法选择的一种形式。神经进化将这整个过程联系起来,产生一个超出任何个体学习者能力的单一紧急学习者。在一系列连续控制基准测试中的实验表明,新兴学习者明显优于其复合学习者,同时保持整体样本效率更高 - 特别是解决了 Mujoco Humanoid 基准测试,其中所有复合学习者(TD3)完全孤立地失败。