SkewFit:状态覆盖自监督强化学习
在论文《Skew-Fit: State-Covering Self-Supervised Reinforcement Learning》中,研究人员提出一种用以学习此类最大熵目标分配的Skew-Fit算法,并且显示在某些正则条件下,该方法能够收敛至包含可能状态组合的均匀分布,即使我们事先不清楚该组合也没关系。Skew-Fit使得自监督智能体能够自动选择和实践不同目标。实验表明,该算法可以学习各种各样的图像操作任务,包括真实机器人开门,这些完全都是从零开始,并且不存在任何人工设计的回报函数。