论文链接:https://arxiv.org/abs/1909.12316
这项研究展示了如何利用「个人偏好」,来定制化提升人类使用下肢外骨骼的舒适感。以往,机械外骨骼一直被美国军队视为提升士兵作战能力的工具,但加州理工和清华大学的这项研究在未来或许可为数千万残障人士带来帮助。
该研究提出了一种叫做 COSPAR 的算法,它可以将合作学习应用于下肢外骨骼操作时对人类偏好的适应,并在模拟和真人实验中进行了测试。
论文参与方有Caltech的Aaron Ames组、Joel Burdick组和Yisong Yue组,以及清华大学的Yanan Sui组。
研究者表示,未来计划将 COSPAR 用于优化规模更大的步态参数,但可能需要集成该算法与更多可用于高维特征空间学习的技术。这一方法还可以扩展到预计算步态库以外的数据,进而生成全新的步态或者控制器设计。
从辅助移动到自动驾驶,从教育到对话系统,人机交互在多个应用领域得到了越来越多的关注。在这些领域中,为了使机器人系统和人类用户的交互效果最优化,机器人系统必须根据用户的反馈做出适应性调整。具体而言,机器人系统从用户反馈中学习有助于改进机器人辅助设备。
这项研究致力于优化下肢外骨骼 Atalante 的步态,以最大程度地提升用户舒适度。
Atalante 是法国初创公司 Wandercraft 开发的第四代下肢外骨骼设备,它使用 12 个驱动关节(actuated joint),来帮助下肢运动障碍的人恢复移动能力。利用 Atalante 进行的现有工作证明了,利用局部混合零动态(partial hybrid zero dynamics,PHZD)方法可以实现动态稳定地行走,该方法最初是为双足机器人设计的。
尽管 PHZD 方法能够生成稳定的双足移动,但目前仍没有能够提升舒适度的框架。然而,用户舒适度应该是优化外骨骼行走步态的关键目标。现有方法能够让双足机器人拥有和人类类似的行走步态,但它们无法满足用户的个人偏好。
就像涉及人类的很多现实世界设置一样,对于外骨骼步态生成而言,可靠地指出数值分数或者提供 demo 都是有挑战性的。在这样的情况下,用户的相关偏好(relative preferences)能够更可靠地度量他们的舒适度。之前的研究已经发现,在信息检索和自动驾驶等多个领域中,用户偏好比数值分数更可靠。
基于决斗赌博机(dueling bandits)和合作学习(coactive learning),该研究提出了 COSPAR 算法来学习用户偏好的外骨骼步态。COSPAR 是一种混合驱动(mixed-initiative)方法,既可以查询用户的偏好,也允许用户提出改进意见。研究者在模拟和真人实验中进行了验证。实验表明,COSPAR 能够在步态库中找到用户偏爱的步态。此过程不仅可以识别用户偏好的行走轨迹,还可以洞悉用户对某些步态的偏好。
基于用户偏好的学习算法
从人的主观反应中学习时,偏好反馈比绝对反馈更加可靠,因此该研究利用「基于偏好的学习」(如用户喜欢步态 A 还是步态 B?),来确定用户最喜欢的步态参数。因此,该研究个性化外骨骼步态的目标可以被定义为决斗赌博机和合作学习问题。
该研究基于 Self-Sparring 算法构建。这是一种贝叶斯决斗赌博机方法,既具备有竞争力的理论收敛保证,又拥有实证性能。Self-Sparring 算法基于每个动作对用户的效用来学习贝叶斯后验,并通过偏好诱导从模型的后验中抽取多个样本进行决斗。
Self-Sparring 算法可以迭代地执行以下操作:a)从动作效用的后验模型中提取多个样本;b)对于每个样本模型,用最高的采样效用执行动作;c)在已执行动作之间查找偏好反馈;d)根据获取的偏好数据更新后验。
为了收集更多的反馈信息,研究者允许用户在试用期间提出改进建议。这种方法类似于合作学习框架,即用户将改进的动作作为对每个动作的反馈。
合作学习已经应用于机器人轨迹规划,但尚未用于机器人步态生成或与偏好学习相结合。
COSPAR 算法
为了优化步态库内的外骨骼步态,研究者提出了一种混合驱动学习方法 COSPAR 算法,该算法扩展了 Self-Sparring 算法,将主动反馈融入其中。
和 Self-Sparring 类似,COSPAR 维护基于可能动作的贝叶斯偏好关系函数,该函数用于观察到的偏好反馈。COSPAR 基于用户反馈更新模型,并用它来选择新试验的动作,并诱导反馈。
该研究首先定义了贝叶斯偏好模型,然后细化了算法 1 的步骤。
COSPAR 算法。
模拟实验
研究者在两种模拟环境中对 COSPAR 的性能进行评估。
首先,利用两足动物模拟 CG 来评估 COSPAR 的性能,并通过偏好反馈基于步长优化 COT(cost of transport),如下图 2 所示:
图2。
然后通过对比 COT 值来确定偏好。COT 值是通过模拟多个步长的步态来计算的,每个步长均保持固定 0.2 m/s 的髋关节速度。这些模拟步态是通过 single-point shooting 局部混合零动态方法合成的。
接下来,研究者在综合 2D 效用函数上测试 COSPAR,如图 3(a)所示。每个效用函数都是基于 30x30 网格上的高斯过程先验生成的。这些实验评估了将 COSPAR 扩展至更高维度时的性能,以及合作反馈的优势。
图 3:a)综合 2D 目标函数示例。b)在模拟条件(n=1; b = 1; 主动反馈)下,COSPAR 经过 150 次迭代后学习到的效用模型后验。COSPAR 会优先确定和探索最佳区域,而不是学习全局精确效用图景(globally-accurate utility landscape)。
模拟结果如图 4 所示。在每种情况下,涉及合作反馈的混合驱动模拟都比只接收偏好的模拟表现要好。
图 4:在 2D 综合目标函数上的 COSPAR 模拟结果,对比了 n、b 和有 / 无合作反馈三种不同参数设置情况下的 COSPAR 算法。从中可以看出,合作反馈总是能起到作用的,n = 2, b = 0 这种情况下的效果最差,因为接收到的偏好最少。
真人实验
在模拟实验之后,研究者将 COSPAR 部署在下肢外骨骼设备 Atalante 上,进行了两项人类受试者的个性化步态优化实验。这两项实验的目的是,确定使用户舒适度最大化的步态参数值,比如偏好和合作反馈。
第一个实验针对三个健康的受试者,用 COSPAR 来确定受试者的偏好步长,也就是在一维特征空间中进行优化。
第二个实验展示了 COSPAR 在二维空间中的有效性,并在两个不同的步态特征对上同时进行了优化。重要的是,COSPAR 不依赖于步态特征的选择。
从图 1 中可以看到,研究者还通过直接测热法记录了受试者的代谢支出,但由于使用者没有消耗太多的精力在步行动作上,这个数据并不能说明使用者偏好。
图 6:二维特征空间中的实验结果(上一行:步长和持续时间;下一行:步长和宽度)。1 到 4 列展示了偏好模型的后验均值变化。第四列还展示了受试者在 20 次试验后采样三次步态的盲测分数。第五行按照时间顺序描绘实验结果。COSPAR 从后验偏好分数更高的区域抽取了更多样本。
参考内容:
https://venturebeat.com/2020/06/03/caltech-ai-lab-optimizes-exoskeleton-gait-for-human-comfort/