本文为机器之心技术分析师对发表于 IEEE Robotics & Automation Magazine 的论文《在人类环境中的具备认知能力的机器人操作:要求、近期成果与仍待解决的问题》的分析解读,文中所有图片皆引自原论文。
论文地址:http://ieeexplore.ieee.org/document/7894169/
摘要
在我们想象未来世界时,很难不看到机器人的身影。具备计算机视觉、自动规划和人机交互能力的服务机器人将能在家庭和工作环境中协助我们,让我们的生活更便捷更智能。尽管人工智能和机器人领域进展颇丰,但在移动操作方面仍有一些有待解决的挑战和难题。在这篇论文中,研究者评估了近期的研究成果,并指出了在日常操作环境中仍待突破的研究方向,具体涉及到基于知识的推理、用于建模世界的感知方法、规划与行为、学习和人机交互。
在人类环境中操作机器人
在人类环境中,导致智能机器人的移动操作困难的因素是多种多样的 [1]。特别是在非结构化和开放的环境中的移动操作仍还是一个尚待解决的问题。要解决这一问题,必需满足的一大先决条件是认知能力。Vernon 指出,认知存在六个主要属性:自主、感知、预测、行为、适应和学习 [2]。这些主要属性使得机器人必须具备图 1 所示的高级组件。这篇分析解读文章之后的内容即是对这张图中给出的每个组件的解释。
基于知识的推理
要求
机器人需要通过传感设备获取和维护真实世界的数据,并还需具备处理大量知识的能力,这样机器人才能构建自己的能力和目标等并做出实时的决策。近期的一些研究 [3-7] 已经提出了一些知识处理架构和知识管理平台。研究表明,服务机器人的知识库可以通过范围广泛的信息源来填充。
近期研究
KnowRob [3]、Open- Robots Ontology(ORO)[4] 和 RoboEarth [8] 等知识处理和管理基础架构/平台能基于人类设计的知识库为服务机器人提供执行日常操作任务所需的知识。
有待解决的问题和未来研究方向
尽管近年来进展不断,但为了执行任务仍然还需为机器人提供足够的知识。首先,因为研究者不可能有能力事先就为机器人编程所有可能的情况,所以事先确定需要编码的知识内容并且让机器人能在操作过程中获取这些知识是非常重要且必需的。此外,为了执行与人类的交互,还需要常识,因为人类有时候会略去他们认为显而易见的细节。
下一步是最重要的,即创造知识足够充分的机器人,以在非结构化和开放式的人类环境中执行各种各样的操作任务。
用于建模世界的感知能力
需求
通过从人类环境接收传感信息,机器人可以构建并持续地维护有关真实世界的信念空间。这个过程被称为感知和世界建模。传感器和目标识别算法的发展让机器人能够感知有关被感知目标的任务相关属性的多模态和更深度信息(图 2)。
机器人如要执行操作任务,就需要有能力应对没有可供识别的模型的全新目标。有研究者提出了一种主动感知方法,可以检测未知目标以及建模它们的完整视觉外观 [9]。这种方法会做出假设,然后通过验证假设来识别全新的目标。
此外,对于目标操作任务而言,依靠使用触觉传感器数据来补充感知信息也是很关键的。学习理解上下文也是不可或缺的,这样能够提升规划的目标识别的表现。
近期研究
RoboSherlock [10] 框架让机器人可以建模所获取的信息,实现可靠的感知。
WIRE [11] 是一种概率式系统,让机器人可以将先验知识跟踪假设整合进来,从而处理非结构化和动态环境中的模糊性问题。
有待解决的问题和未来研究方向
当前的机器人仍不能在开放式的非结构化的人类环境中准确地感知这个世界。如果没有足够的知识库,这些机器人将不能处理很多不同的目标。
规划、行为和适应
需求
成功的服务机器人必须要能调整自己的决策,并根据人类环境中的动态变化进行规划。在非结构化的环境中,将高层面的符号规划和推理与低层面的感知和控制整合到一起对于操作而言非常重要。某些研究关注的是寻找任务和运动规划的适当整合方法,还有一些研究更注重规划和行为所需的推理。
近期研究
Hierarchical Planing in Now(HPN)[12] 是一种寻找任务与运动规划的整合方式的方法。它会将基于分层分解的任务规划与依赖快速近似几何计算的运动规划连续地交织在一起。
Cognitive Robot Abstract Machine [13] 系统将一种表达规划语言与推理机制结合到了一起,可让机器人推理和修改它们的控制程序。
有待解决的问题和未来研究方向
在人类环境中导航和操作物体方面,机器人的行为正变得越来越可靠。但是,在完全开放式和动态的人类环境中,这些工作对机器人而言仍然非常艰难。解决这一问题的一个方法是通过使用一种统一的层次表征来进行规划和行为 [61]。而且机器人肯定有时会出现故障,所以学习这些故障案例也非常重要。最后但并非不重要的一点是,设计能让机器人自动学习和发现紧凑表征的方法是非常有趣的,也是一个未来研究方向。
学习技能和能力
需求
就和我们人类一样,学习对服务机器人而言也至关重要。针对移动操作任务的学习方法可分为两大类:从演示学习(LfD)和从经历学习。
LfD 是一种由另一个代理提供示例的方法。它们依赖于运动示范或人类执行操作。从经历学习则是让机器人自动学习之前的经历,从而适应新场景。
近期研究
好奇心驱动的技能习得(CCSA:Curiosity-driven skill acquisition)[14] 是一个可用于实现内在驱动型机器人的方法,能够通过复用已经学习过的技能来不断习得新技能。
REX-D 算法 [15] 能让机器人学习目标导向的操作序列,其做法是进行探索并在有需要时请求教师(teacher)进行演示,从而实现更好的泛化以及降低探索量。
有待解决的问题和未来研究方向
未来需要在非实验室环境中进行部署机器人的研究。这需要给服务机器人配备先进的学习能力,让它们能力处理非结构化的环境以及避免重复出错。
人机协作
需求
近些年来,在人类环境中运作的服务机器人已从人机交互中受益良多。接下来要做的是:为机器人配备自然语言理解能力,从而让它们能够理解非专家用户给出的指令;从自然语言的人机对话中提取信息和意图内容;在不够特定的任务描述中消除缺失信息的歧义,以及生成有针对性的帮助请求以从失误中恢复。
近期研究
已有研究者提出了一种交互式概率运动原语框架,让机器人可以在合作任务中通过演示学习交互的方式。其已经通过高斯混合模型得到了扩展,从而能够学习涉及多个子任务与不同交互模式的执行任务。
有待解决的问题和未来研究方向
人机协作还是一个年轻的研究领域,还有些问题需要得到解决。首先,机器人需要能预测人类的意图和动作。此外,机器人还需要执行可预测和可辨别的行为,以确保交互过程的安全。
总结
尽管几十年来服务机器人的研究和应用已经取得了很大的成功,但非结构环境中的机器人操作仍然是一个高难度任务。正如之前提到的,某些研究问题需要通过一个高层面的系统架构(比如图 1 那种)整合到一起。
参考文献
[1] C. C. Kemp, A. Edsinger, and E. Torres-Jara, “Challenges for robot manipulation in human environments,” IEEE Robot. Autom. Mag., 2007, vol. 14, no. 1, pp. 20–29.
[2] D. Vernon, Artificial Cognitive Systems: A Primer. Cambridge, MA: MIT Press, 2014.
[3] M. Tenorth and M. Beetz, “KnowRob: A knowledge processing infrastructure for cognition-enabled robots,” Int. J. Robot. Res., vol. 32, no. 5, pp. 566–590, 2013.
[4] S. Lemaignan, R. Ros, E. A. Sisbot, R. Alami, and M. Beetz, “Grounding the interaction: Anchoring situated discourse in everyday human-robot interaction,” Int. J. Soc. Robot., vol. 4, no. 2, pp. 181–199, 2012.
[5] M. Daoutis, “Knowledge based perceptual anchoring: Grounding percepts to concepts in cognitive robots,” Künstliche Intelligenz, vol. 27, no. 2, pp. 179–182, 2013.
[6] Y. Zhu, A. Fathi, and L. Fei-Fei, “Reasoning about object affordances in a knowledge base representation,” in Proc. European Conf. Computer Vision, 2014, pp. 408–424.
[7] M. Beetz, M. Tenorth, and J. Winkler, “OPEN-EASE: A knowledge processing service for robots and robotics/AI researchers,” in Proc. IEEE Int. Conf. Robotics Automation, 2015, pp. 1983–1990.
[8] M. Tenorth, A. C. Perzylo, R. Lafrenz, and M. Beetz, “Representation and exchange of knowledge about actions, objects, and environments in the RoboEarth framework,” IEEE Trans. Autom. Sci. Eng., vol. 10, no. 3, pp. 643–651, 2013.
[9] D. Schiebener, J. Morimoto, T. Asfour, and A. Ude, “Integrating visual perception and manipulation for autonomous learning of object representations,” Adapt. Behav., vol. 21, no. 5, pp. 328–345, 2013.
[10] M. Beetz, F. Balint-Benczedi, N. Blodow, D. Nyga, T. Wiedemeyer, and Z. Marton, “RoboSherlock: Unstructured information processing for robot perception,” in Proc. IEEE Int. Conf. Robotics Automation, 2015, pp. 1549–1556.
[11] J. Elfring, S. van den Dries, M. J. G. van de Molengraft, and M. Steinbuch, “Semantic world modeling using probabilistic multiple hypothesis anchoring,” Robot. Auton. Syst, vol. 61, no. 2, pp. 95–105, 2013.
[12] L. P. Kaelbling and T. Lozano-Pérez, “Hierarchical task and motion planning in the now,” in Proc. IEEE Int. Conf. Robotics Automation, 2011, pp. 1470–1477.
[13] M. Beetz, L. Mösenlechner, and M. Tenorth, “CRAM: A cognitive robot abstract machine for everyday manipulation in human environments,” in Proc. IEEE/RSJ Int. Conf. Intelligent Robots Systems, 2010, pp. 1012–1017.
[14] Kompella V R, Stollenga M, Luciw M, et al. Continual curiosity-driven skill acquisition from high-dimensional video inputs for humanoid robots[J]. Artificial Intelligence, 2015.
[15] Martínez D, Alenya G, Torras C. Relational reinforcement learning with guided demonstrations[J]. Artificial Intelligence, 2015.