Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陪跑又快又稳,机器人跑步搭子来了

这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法,让它掌握了急转弯等技能,还能对抗各种干扰。

                                                                              【关注机器之心视频号,第一时间看到有趣的 AI 内容】
关于双足机器人运动的研究已经进行了几十年,但仍然没有一个能够对各种运动技能进行稳健控制的通用框架。挑战来自于双足机器人欠驱动动态的复杂性以及与每种运动技能相关的不同规划

研究者们希望解决的关键问题在于:如何为高维人体大小的双足机器人开发一种解决方案?如何控制多样化、敏捷和稳健的腿部运动技能,比如行走、跑步和跳跃?

最近的一项研究或许提供了不错的方案。

在这项工作中,来自伯克利等机构的研究者利用强化学习(RL)为现实世界中的高维非线性双足机器人创建控制器,以应对上述挑战。这些控制器可以利用机器人的本体感觉信息来适应随时间变化的不确定动态,同时能够适应新的环境和设置,利用双足机器人的敏捷性,在突发情况下表现出稳健的行为。此外,本文框架还提供了再现各种双足运动技能的通用配方。
图片
  • 论文标题:Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
  • 论文链接:https://arxiv.org/pdf/2401.16889.pdf

论文细节

对于控制器来说,扭矩控制人体大小的双足机器人的高维性和非线性乍似乎是障碍,然而这些特性的优势在于可以通过机器人的高维动力学实现复杂的敏捷操作。

这一控制器赋予机器人的技能如图 1 所示,包括稳健的站立、行走、奔跑和跳跃。这些技能还可用于执行各种不同的任务,包括以不同速度和高度行走、以不同速度和方向奔跑以及跳向各种目标,同时在实际部署过程中保持稳健性。为此,研究者利用无模型 RL 让机器人通过对系统全阶动态的试错来学习。除了真实世界的实验,还深入分析了使用 RL 进行腿部运动控制的好处,并详细研究了如何有效地构建学习过程以利用这些优势,如适应性和稳健性。
图片
用于通用双足运动控制的 RL 系统如图 2 所示:
图片
第四节首先介绍了在运动控制中利用机器人 I/O 历史记录的重要性,这一节从控制和 RL 两个角度展示了机器人的长期 I/O 历史可以在实时控制过程中实现系统识别和状态估计。

第五节介绍了研究的核心:一种利用双足机器人长期和短期 I/O 双历史记录的新型控制架构。具体来说,这种控制架构不仅能利用机器人的长期历史记录,还能利用机器人的短期历史记录。

控制框架如下图:
图片
在这种双历史记录结构中,长期历史记录带来了适应性(在第八节中得到验证),短期历史记录则通过实现更好的实时控制对长期历史记录的利用进行了补充(在第七节中得到验证)。

第六节介绍了如何将由深度神经网络表示的控制策略通过无模型 RL 进行优化。鉴于研究者旨在开发一种能够利用高动态运动技能完成各种任务的控制器,因此这一节中的训练以多阶段模拟训练为特征。这种训练策略提供了一个结构化的课程,首先是单一任务训练,即机器人专注于一个固定的任务,然后是任务随机化,使机器人接受的训练任务多样化,最后是动态随机化,改变机器人的动态参数

策略如下图所示:
图片
这种训练策略能够提供一种多功能控制策略,可以执行多种任务,并实现机器人硬件的零样本迁移。此外,任务随机化还能通过在不同的学习任务中进行泛化来增强所产生策略的稳健性。

研究表明,这种稳健性可以使机器人对干扰做出顺从的行为,这与动态随机化带来的干扰是「正交」的。这一点将在第九节中得到验证。

利用这一框架,研究者获得了针对双足机器人 Cassie 的行走、跑步和跳跃技能的多功能策略。第十章评估了这些控制策略在现实世界中的有效性。

实验

研究者对机器人进行了广泛的实验,包括在现实世界中行走、跑步和跳跃等多项能力的测试。所用策略在经过模拟训练后都能够有效地控制现实世界中的机器人,而无需进一步调整。

行走实验

如图 14a 所示,行走策略展示了对机器人遵循不同指令的有效控制,在整个测试过程中,跟踪误差相当低(跟踪误差由 MAE 的值来评估)。 

此外,机器人策略在较长时间内始终表现良好,即使在 325 天和 492 天后仍具有保持跟踪可变命令的能力,分别如图 14c 和图 14b 所示。尽管在此期间机器人的动力学发生了显著的累积变化,但图 14a 中的同一控制器继续有效地管理不同的行走任务,并且跟踪误差的退化最小。
图片
如图 15 所示,该研究所用的策略显示出对机器人可靠的控制,使机器人能够准确地跟踪顺时针或逆时针的不同转弯命令。
图片
快速行走实验。除了中等行走速度之外,实验还展示了所用策略控制机器人向前和向后执行快速行走动作的能力,如图 16 所示。机器人可以从静止状态过渡到快速实现向前行走速度,平均速度达到 1.14 m/s(跟踪指令中要求 1.4 m/s),机器人还能按照指令快速返回站立姿态,如图 16a 所示,数据记录在图 16c 中。
图片
在不平坦的地形上(未经训练),机器人也可以在楼梯或下坡上有效地向后行走,如下图所示。
图片
抗扰动。在脉冲扰动的情况下,比如研究者在机器人步行时从各个方向向机器人引入了短时间内的外部扰动。就像图 18a 中记录的那样,在原地行走时向机器人施加相当大的横向扰动力,横向速度峰值为 0.5 m/s。尽管有扰动,机器人仍能迅速从横向偏差中恢复过来。如图 18a 所示,机器人熟练地沿相反的横向方向移动,有效地补偿扰动并恢复其稳定的原地行走步态。
图片
在持续扰动测试期间,人类对机器人底座施加扰动力量,并沿随机方向拖动机器人,同时命令机器人原地行走。如图 19a 所展示的,当机器人正常行走时,持续的横向拖力施加到 Cassie 的底座上。结果显示机器人在不失去平衡的情况下,通过遵循这些外力的方向来表现出对这些外力的顺应性。这也表明了本文提出的基于强化学习的策略在控制双足机器人以实现安全人机交互等潜在应用方面的优势。

跑步实验

当机器人使用双足跑步策略,在 2 分 34 秒内实现了 400 米冲刺,在 27.06 秒内实现了 100 米冲刺,跑步倾斜度高达 10° 等等。

400 米短跑:该研究首先评估了在标准室外跑道上完成 400 米短跑的一般跑步策略,如图 20 所示。在整个测试过程中,机器人被命令以 3.5 m/s 的速速同时响应由操作员发出的不同转弯命令。机器人能够从站立姿态平滑地过渡到跑步步态(图 20a 1)。机器人设法加速到平均估计运行速度 2.15 m/s,达到峰值估计速度 3.54 m/s,如图 20b 所示。该策略使机器人成功地在整个 400 米跑步过程中始终保持所需的速度,同时准确地遵守不同的转弯命令。
图片
在所提出的跑步策略的控制下,Cassie 在 2 分 34 秒内成功完成了 400 米冲刺,随后能够过渡到站立姿态。 

该研究进一步进行了急转弯测试,其中机器人被给予偏航命令的阶跃变化,从 0 度直接到 90 度,如图 21c 中记录的。机器人可以响应这样的步进命令,并在 2 秒 5 步内完成 90 度急转弯。
图片
100 米短跑:如图 22 所示,通过部署所提出的跑步策略,机器人在大约 28 秒内完成了 100 米短跑,实现了 27.06 秒的最快跑步时间。
图片
跳跃实验

通过实验证明,研究者发现很难训练机器人在跳跃到高架平台的同时同时转弯,但所提出的跳跃策略实现了机器人多种不同的双足跳跃,包括可以跳跃 1.4 米以及跳到 0.44 米高架平台上。

跳跃和转弯:如图 25a 所示,使用单次跳跃策略,机器人能够执行各种给定的目标跳跃,例如旋转 60° 时原地跳跃、向后跳跃到后面 0.3 米处着陆等。 
图片
跳跃到高架平台:如图 25b 所示,机器人能够精确跳跃到不同位置的目标上,例如前方 1 米或前方 1.4 米,它还能跳到不同高度的位置,包括跳到 0.44 米高的地方(考虑到机器人本身只有 1.1 米高)。

了解更多内容,请参考原论文。
产业加州大学伯克利分校Cassie
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

推荐文章
暂无评论
暂无评论~