![图片](https://image.jiqizhixin.com/uploads/editor/91a274ba-638c-4716-93ec-2d786c5bf692/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c5f2b48e-b03f-4e0e-90bb-9ff194b5d2b8/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b039ce1a-de13-465f-9a49-d429f6e78501/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/e0d11b70-8411-415a-869c-c1d3544a8abd/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/892fada8-922d-49d3-b90e-b851fd138fe2/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/6d536c1c-06b8-4fca-9bb1-e2f64fcbfb1d/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/9630aff7-154a-47f9-b2b0-a0b2fca669a2/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/860f1cba-a67f-4554-b661-b1beaa30eb44/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/47895040-95b3-400d-a841-d16e010688f9/640.png)
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
在强化学习领域,「大力出奇迹」行得通?
在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。
强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。