刘畅流作者

浅谈人机交互及机器人的行为设计

本文翻译自作者博士论文《Desigining Robot Behavior in Human-Robot Interactions》第一章。论文地址:https://escholarship.org/uc/item/8tz6x0t9

人机交互(Human robot interactions, HRI)是未来机器人的关键构成部分,在许多领域有着广泛的应用,如制造业、交通运输、服务业、以及娱乐业。

在工厂里,机器人正在离开它们的笼子,开始与工人们合作。工业制造商们正在柔性生产线中引入协作机器人,这样的人机生产单位可以有效地将人类的灵活性和机器人的高效性结合起来。同时,自动驾驶汽车将彻底改变当今的交通系统和人们的出行方式。但是,当自动驾驶汽车在公路上与人类驾驶的车辆进行交互时,这对道路安全提出了新的挑战。另一个例子是医疗康复领域的外骨骼机器人。这些外骨骼机器人常被用来帮助中风患者重新行走。患者和机器人之间存在密切的物理接触和交互。其他的诸如护理机器人或机器人导盲犬都存在很大的需求,且涉及人机交互

上述应用对社会和经济有着巨大的影响。未来的机器人将与人类比肩。它们是能够自主决策的独立实体,能与物理世界互动的智能执行器,并且是具有丰富感官和理性批判的观察者。最重要的是,他们能与人类建立社会关系。我们称这样的机器人为协同机器人(Co-Robot)。

当然,设计协同机器人在技术上非常具有挑战性。传统机器人的工作环境是结构化和确定的。而协同机器人需要在高度非结构化和随机环境中运行。最基本的研究问题是:如何保障协同机器人在动态不确定环境中安全且高效地运行。

由于人机交互的广泛性和复杂性,在解决基本问题时需要考虑以下几个方面,下文中会详细阐述。

• 多种互动模式

协同机器人的潜在应用存在于不同的领域,具有不同的交互模式。为各种模式的人机交互应用设计一个统一的模型是必不可少的。该模型可以用来提供对人机交互的全面理解,指导机器人行为的设计,并作为人机系统性能评估的分析框架。

• 行为设计及其软件实现

行为是对内外环境因素刺激所做出的能动反应。我们研究设计机器人行为的方法,即如何在设计范围内(机器人系统的输入和输出)实现设计目标(以确保协同机器人在动态不确定环境中高效安全地运行)。被设计过的行为将以软件代码的形式被保存在机器人硬件中。当环境或任务变得更加复杂时,软件的复杂性将急剧增加。为了确保机器人能及时对环境变化做出反应,并确保机器人在操作过程中的安全性,实时的计算和驱动至关重要。这依赖于高效的算法。

• 复杂人机系统的分析、综合和评估

机器人行为是否设计得当,需要在人机系统中进行评估。评估既可以在理论上进行,也可以在实验上进行。理论分析的难点在于,软件模块之间的耦合大大增加了系统的复杂性。而进行实验的难点在于,当人类作为受试者处在实验环境中,为人类安全起见,系统对失败的耐受性极低。因此,为人机系统开发有效的评估平台至关重要。

1. 交互模式

人与机器人之间的交互可以有各种模式。我们将它分为两种关系:平行关系(Parallel relationship)和层级关系(Hierarchical relationship)。

平行关系

在平行关系中,人和机器人是两个独立的实体,它们各自独立做出决定,在文献中也称为同伴互动(peer-peer interaction)[30]。并行关系的典型示例是:自动驾驶汽车与人开的车之间互动,工业协作机器人和生产线中的工人之间的互动。在这种情况下,机器人(自动驾驶汽车或工业协同机器人)和人(人开的车或工人)是对等的,而不是主从关系。在下图所示的平行关系中,人和机器人的动作有时需要同步(synchronized),比如当人和机器人共同移动一个工件时,有时则需要异步(asynchronized),比如两辆车在过十字路口时,不能同时占用冲突区。我们将同步操作称为协作(collaboration);将异步操作称为竞争(competition)——总会有一辆车首先通过冲突区域。竞争是最常见的互动模式。如果人类和机器人竞争的资源是空间,竞争可以被理解为避免碰撞。

层级关系

在层级关系中,人或机器人将一部分决策权让渡给了另一方。下面列出了层级关系中的典型示例,如下图所示。

  1. 自动驾驶汽车与车内乘客之间的交互,其中人类乘客将驾驶权转移至车辆。 

  2. 机器人护士和患者之间的交互,其中机器人决定患者的运动轨迹。

  3. 人和辅助设备(如外骨骼)之间的交互。人类可以由机器人引导,但也可以“对抗”机器人。 

  4. 人类驾驶员与驾驶辅助系统之间的交互。驾驶辅助系统可以作为“守护天使” [56] 存在。它允许人类在安全情况下做决策,但它会在紧急情况下接管。另一种辅助系统更像“奴隶系统”。它在安全情况下负责做决策,在紧急情况下要求人类接管。

  5. 人类老师与机器人学员之间的交互,例如人类通过示范教授机器人技能。在这种情况下,机器人遵循人类决定的轨迹。 

  6. 操作员和远程操作机器人之间的交互,其中机器人完全遵循人类的命令。

如以上示例中所讨论的,责任分配因不同层级交互而不同。当人类主宰决策过程时,它又被称为监督式交互 [99]。

上面讲述的是单人和单机器人之间的交互模式,多人和多机器人之间的交互模式可以从这些基本的交互模式中衍生出来。论文的第二章将提出一个多智能体模型,以提供一个统一的框架来分析各种类型的交互,其中个体的人或机器人都将被视为智能体。

2. 设计机器人的行为

我们从物理运动的角度研究行为设计,例如: 如何在交互过程中产生安全高效的运动轨迹。

行为系统三要素

为了生成有效的机器人行为,我们需要

  1. 向机器人提供正确的知识,知识包括两个要素,体现任务要求的成本函数,和描述环境动态的世界模型;

  2. 设计正确的逻辑策略以让机器人能自主地将知识转化为行动;

  3. 设计学习过程以更新知识和逻辑,以使机器人适应未曾预见的环境。

知识,逻辑和学习是行为系统的主要组成部分,如下图所示。在框图中,机器人从有人类参与的环境中获取数据π,并根据逻辑函数g生成动作u,通常而言,这个映射是在世界模型的基础上最小化成本函数计算得到的。学习过程基于数据π更新知识和逻辑。学习模块是非常必要的,因为设计的知识可能无法涵盖所有可能的场景,而且环境可能是随时间变化的。该数学模型将在第二章中进一步说明。

机器人的一生

机器人的一生分为三个阶段:设计阶段,训练阶段和执行阶段,如下图所示。我们将前两个阶段称为离线,将第三个阶段称为在线。

在设计阶段,我们需要为机器人设计上述三要素。在训练阶段,机器人可以从经验或从人类的示范中学习新的知识。从人类示范中学到的知识与人类设计的知识之间的区别在于,前者不需要人类对知识进行数学的或定量的表示。在许多情况下,这种数学表达很难获得并且非常不直观。例如,对人来说,比划一条轨迹比写出一段轨迹的数学函数容易多了。在执行阶段,机器人执行其任务并与其人类同伴进行交互。在执行任务时,机器人可以通过在线学习更新知识或逻辑。然而,由于计算能力的限制,在线学习仅限于小规模的参数自适应。诸如从头学习新技能等结构变化只能通过训练阶段的离线学习来完成。训练阶段和执行阶段可以在永久学习系统(life-long learning)中迭代地执行。机器人也可能直接从设计阶段进入在线执行阶段而无需经过培训阶段。

设计还是学习

知识是行为系统的核心。应该设计多少,应该学习多少,仍然是有争议的 [28]。虽然知识可以学习,但逻辑和学习这两个模块对应的是算法,需要被设计。有三种方法可以获得逻辑g,如下图所示。图中的轮廓表示内部成本。颜色越深,成本越高。而逻辑g是从π到u的映射。 

  1. 我们可以求解在设计阶段通过优化显式地解出g,如图a中红色曲线所示的精确策略。由于内部成本是非凸的,因此函数g可以是不连续的。 

  2. 优化也可以在执行阶段在线求解。需要设计算法(例如,梯度下降),使得给定任何观察π,都能算出理想的控制输入。这提供了一个隐含的策略,如图b所示。由于非凸性,在线计算的控制输入u可能仅是局部最优。这两种方法里知识是显式的,因此是基于模型的逻辑。 

  3. 我们还可以在训练阶段使用参数函数(例如神经网络)来近似策略。首先我们需要一组由(π,u)序列构成的训练数据。然后从训练数据中近似得到函数g,如图c所示。由于不需要明确的知识,这是一个无模型的逻辑

现有方法在设计上各有不同。我们将这些方法概括为以下四个类别,从自然导向(nature-oriented)到培养导向(nurture-oriented),如下图所示。

类别1(自然导向):设计者指定成本和模型,设计逻辑以显式地优化成本函数,无需任何学习过程。代表性方法有:基于经典控制和马尔可夫决策过程(MDP)的方法,它们在设计阶段获得精确的策略,例如在柔性机器人关节的控制[63,137] 或安全危急情况下的控制 [49, 152];模型预测控制(MPC)方法,它们在执行阶段 [26, 90, 94] 计算优化。

类别2(偏自然导向):设计者指定成本,明确设计逻辑,并用学习过程来识别世界模型。经典自适应控制和自适应MPC属于这一类。这种方法在人机交互中的应用可以在 [46, 81, 98, 121] 中找到。这种方法的优点在于它可以在不确定的、时变的环境中应对自如。尤其是当环境中有人类时,此时系统具有巨大的不确定性及时变性。与此同时,设计者仍然可以通过明确的知识和逻辑设计来控制任务的完成情况。

类别3(偏培养导向):设计者只是明确地设计逻辑和学习过程。通过反复试错或专家演示,机器人在训练阶段获得知识。代表方法是基于模型的强化学习(reinforcement learning)和反强化学习(inverse reinforcement learning),如学徒学习(apprentice learning) [1, 7, 41]。这种方法在人机交互中的应用可以在  [4, 103, 135] 中找到。该方法的优点是在设计阶段不再需要对任务和环境进行数学建模。

类别4(培养导向):设计者明确地设计学习过程并使用函数(例如神经网络)来近似逻辑。机器人将在训练阶段获得知识(例如网络中的参数)。与类别3不同,知识不是显式学习的,而是在网络中的隐式编码。代表性方法是深度强化学习(DRL)[100] 和模仿学习(imitation learning) [65]。模仿学习中,除了人类以外,模仿对象可以是类别1至3中的行为系统 [130]。这种方法适用于拥有以下特征的问题:任务和环境极难建模,状态空间太大,实时计算至关重要的情况。

3. 人机系统的评估

人机器人系统的评估可以在理论上和实验上进行。

理论评估

在理论分析中,要回答的问题是:

  1. 设计的逻辑是否会在给定成本和模型的情况下找到最优行动? 

  2. 学习过程会产生收敛的模型序列吗?

  3. 设计的成本函数是否能在多智能体系统中触发期望行为?

前两个问题是模块化的。第三个问题是系统方面的问题,它涉及闭环系统的鲁棒性、稳定性和最优性,例如,闭环多智能体系统是否是自组织(self-organized)的 [91]。系统级分析具有很大的挑战性,因为不同智能体之间的交互具有高度复杂性,人类行为常常并不符合假设(如理性人假设),博弈论中现有工具不足以分析次优智能体。在第七章中,我们将探索一种新的方法来分析次优智能体在宏观系统中的性能。

实验评估

对于人机器人系统的实验评估,需要考虑在早期阶段保护人类受试者。基于这样的考虑,我们可以充分利用虚拟现实技术以及远程遥控来在物理上分离人和机器人,同时达到测试的目的。比如下图就是一种利用虚拟现实技术进行人机交互的示例,实验参与者通过VR头盔与虚拟中的机器人进行交互(图片源自AutoDesk)。

结语

随着智能机器人越来越多地出现在人们的生活中,人机交互将会更广泛地发生。同时,有许多问题亟待研究。对这些问题的探索需要多学科的融合和交叉,如工程学科与社会学科的融合,工程学科与脑科学的融合,以及在工程学科内部,机械设计与算法设计的融合,以此创造更好的智能机器人服务大众。与此同时,作为硅基智能体的创造者,炭基智能体也可以此更好地审视自我。

ControlPlusAI
ControlPlusAI

分享机器人控制和AI领域里的一些知识和感想,偏学术。由来自UC Berkeley, Stanford, CMU的研究者们原创撰稿。

理论机器人人机交互
3
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

多智能体系统技术

一个多智能体系统,是由一个在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法,函数,过程,搜索算法或加强学习来实现。尽管存在相当大的重叠,然而一个多智能体系统并不总是一个基于智能体的模型表现一致。

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~