深度强化学习的鲁棒性
深度强化学习尽管取得了显著的成功,但对超参数化、实施细节或小环境改变鲁棒性并不高,如何克服对这些因素的敏感性是深度强化学习能够适用于现实问题的关键。在论文《Making Deep Q-learning methods robust to time discretization》中,作者将连续时间环境中对时间离散化的敏感性作为临界因素,通过改变每秒的帧数或控制器的动作频率来观察结果。他们发现基于Q-Learning的方法对时间离散具有较高的鲁棒性。形式上,他们证明了Q-Learning不存在连续时间。