策略梯度学习

Policy Gradient是一种策略搜索强化学习方法,求解强化学习问题的一种方法,类似于SVM——不估计后验概率而直接优化学习目标。

来源:知乎