这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法,让它掌握了急转弯等技能,还能对抗各种干扰。
![](https://image.jiqizhixin.com/uploads/editor/5509c2bb-22e2-4aa6-bc4d-cc4ea5a30931/1708074557588.png)
![图片](https://image.jiqizhixin.com/uploads/editor/0b080d22-4003-4ef9-b93d-5fa521e5e509/640.png)
论文标题:Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control 论文链接:https://arxiv.org/pdf/2401.16889.pdf
![图片](https://image.jiqizhixin.com/uploads/editor/7645ff37-978a-48d2-834e-5492fca5b0a5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/9c40652b-6460-4fd0-a8b2-e2407804a70d/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a7486ef7-7ba5-47b7-89e2-dc8619ef3223/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/52695918-cb50-403e-b85c-a52df1415418/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b602457c-3d28-4d0a-a6fc-33257e66bd8e/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/f1d35c08-c26b-493f-bde7-00356e9759b4/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/25e9cc1f-c430-4e65-a9c8-f93b76929aae/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/4b53c4f0-74e7-4506-9307-3561deacd8d3/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/ee328e49-0dfb-4944-9bb5-65be3a7bbd81/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/eb42e1fe-7968-45fd-9dee-2a23fc775f88/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/79e54be1-74ca-406d-ba0b-ed2ea7c61c94/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/16660cb5-6c07-4cc7-b6fb-068d742512d8/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/bd3cda0a-2785-4c65-b5f2-82acb04b798e/640.png)
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法,让它掌握了急转弯等技能,还能对抗各种干扰。
强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。
人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。
强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。