DeepMind 新论文,「通过摊销近似最大化在巨大动作空间中进行 Q 学习」
由于需要在一组可能的动作上进行最大化,因此将 Q 学习应用于高维或连续动作空间可能很困难。受摊销推理技术的启发,我们用从获悉的提案分布中抽样的一小部分可能动作的最大化代替了所有动作的昂贵的最大化。我们称其为摊销 Q 学习(AQL)的最终方法能够处理离散,连续或混合的动作空间,同时保持 Q 学习的优势。我们对具有多达 21 个维度动作的连续控制任务的实验表明,AQL 优于 D3PG 和 QT-Opt。对结构化离散动作空间进行的实验表明,AQL 可以有效地学习具有数千个离散动作的空间中的良好策略。