文章库
PRO通讯会员
SOTA!模型
AI 好好用
登录
策略梯度学习
Policy Gradient是一种策略搜索强化学习方法,求解强化学习问题的一种方法,类似于SVM——不估计后验概率而直接优化学习目标。
来源:
知乎
登录
去登录
文章库
PRO会员通讯
SOTA!模型
AI 好好用
文章库
PRO通讯会员
SOTA!模型
AI 好好用
登录