行业内参

AI Daily

AI Daily 快讯 · 2019/06/20

谷歌推出一种新的强化学习模型选择方法，非政策分类

在一篇名为《通过非政策分类的非政策评估》的论文中，来自谷歌的研究团队提出了一种新的非政策评估方法，称为非政策分类（OPC）。该评估方法通过将评估视为一种分类问题来评估过去数据中代理的绩效。该方法适用于图像（相机）输入，并且不需要使用重要性采样或使用目标环境的精确模型来重新加权数据。研究显示，OPC 可以扩展到更大的任务，包括在现实世界中基于视觉的机器人抓取任务。

AM 6:10arxiv.org

登录后评论

暂无评论~

登录

文章库