文章库
PRO通讯会员
SOTA!模型
AI 好好用
登录
行业内参
AI Daily
AI Daily 快讯 · 2019/06/20
谷歌推出一种新的强化学习模型选择方法,非政策分类
在一篇名为《通过非政策分类的非政策评估》的论文中,来自谷歌的研究团队提出了一种新的非政策评估方法,称为非政策分类(OPC)。该评估方法通过将评估视为一种分类问题来评估过去数据中代理的绩效。该方法适用于图像(相机)输入,并且不需要使用重要性采样或使用目标环境的精确模型来重新加权数据。研究显示,OPC 可以扩展到更大的任务,包括在现实世界中基于视觉的机器人抓取任务。
登录
后评论
暂无评论~
登录
去登录
文章库
PRO会员通讯
SOTA!模型
AI 好好用
文章库
PRO通讯会员
SOTA!模型
AI 好好用
登录