活动识别

活动识别旨通过对代理人的行为和环境条件的一系列观察来识别一个或多个代理人的行为和目标。

来源:wiki
简介

活动识别旨通过对代理人的行为和环境条件的一系列观察来识别一个或多个代理人的行为和目标。 自20世纪80年代以来,该研究领域引起了多个计算机科学界的关注,因为它具有为许多不同应用提供个性化支持等优点,以及它与许多不同研究领域的联系,如医学,人机交互和社会学。

由于其多方面的性质,不同的领域可以将活动识别称为计划识别,目标识别,意图识别,行为识别,位置估计和基于位置的服务。

计划识别(plan recognition)计划识别是通过观察Agent的行为来推断Agent的计划和目标的一般问题。 这种问题在(Kautz,1987)中被描述为限制的逻辑推理过程。所有操作,计划统一称为目标,识别器的知识由一组称为事件层次结构的一阶语句表示,这些语句在一阶逻辑中编码,定义了事件类型之间的抽象,分解和功能关系。

目标识别(goal recognition):目标识别是一种特殊类型的计划识别。 目标识别是通过基于逻辑和一致性的方法完成的(Kautz,1987)。 在过去的几年中,概率方法已经发展成为能够处理不确定性的方法。 其中许多方法(Patterson等人,2005;Vail,Veloso和Lafferty,2007)假设用户一次实现一个目标,并且目标是通过一系列连续的操作实现的。 然而,在许多现实世界中,用户可以在单个动作序列中实现多个目标,其中目标是同时实现的,并且实现它们的动作是交错的。 我们把这个问题称为多目标识别问题。 以前的方法在这种情况下会有问题。 计划和目标识别已经被应用于许多应用中,包括用户建模、系统入侵检测、智能软件帮助系统,以及我们最感兴趣的自然语言理解领域。

意图识别( intent recognition)由模式识别器完成,模式识别器将假肢的状态与活动的概率模型进行比较。 这些模型经过适当的数据库“训练”,然后用于实时意图识别。 一般选择了一组适当的传感器、该数据的适当帧长度以及要从每个窗口提取的一组适当的特征。 此外,为了实时实现,需要适当减少数据维度。 一旦选择了适当的输入,就根据一组训练数据制定模型。 在为每个活动模式(例如行走、站立、坐姿)建立概率模型之后,实时地使用这些模型来确定在给定时刻哪个活动是最有可能的。

位置估计(location estimation): 网络中的位置估计中一小部分设备(称为参考设备)具有关于其坐标的先验信息。 所有设备,无论它们的绝对坐标知识如何,都会估计它们与相邻设备之间的距离。 这种位置估计被称为“相对位置”,因为所收集的距离估计主要在两对设备之间,这两对设备都不具有绝对坐标知识。 这些没有先验信息的设备称之为蒙眼设备。 在蜂窝位置估计和本地定位系统(LPS)中,仅使用蒙眼设备和参考设备之间的范围来进行位置估计。 相对位置估计需要同时估计多个设备坐标。 随着设备被添加到网络中,即使当新设备没有先验坐标信息并且范围仅限于几个邻居时,也可以实现更高的位置估计精度。

【来源: https://en.wikipedia.org/wiki/Activity_recognition

类型

基于传感器的单用户活动识别

基于传感器的活动识别将传感器网络的新兴领域与新颖的数据挖掘和机器学习技术相结合,以模拟各种人类活动。移动设备(例如智能电话)提供足够的传感器数据和计算能力,以实现身体活动识别,提供对日常生活中的能量消耗的估计。基于传感器的活动识别研究人员认为,通过授权无处不在的计算机和传感器来监控代理的行为(在经过对象同意的前提下),这些计算机将更适合帮助我们做一些决策。

基于传感器的活动识别等级

由于输入的固有噪声特性,基于传感器的活动识别是一项具有挑战性的任务。因此,统计建模一直是这一方向的主要推动力,其中在几个中间层面的识别被进行和连接。在收集传感器数据的最低级别,统计学习涉及如何从接收的信号数据中找到代理的详细位置。在中间水平,统计推断可能关注如何从推断的位置序列和较低水平的环境条件识别个体的活动。此外,在最高级别,主要关注的是通过逻辑和统计推理的混合从活动序列中找出代理的总体目标或子目标。

基于传感器的多用户活动识别

使用身体上的传感器识别多个用户的活动首先出现在《The Active Badge Location System》的工作中,在90年代早期发表。其他传感器技术(如加速度传感器)用于在办公场景中识别群体活动模式。Gu等人《 Mining Emerging Patterns for Recognizing Activities of Multiple Users in Pervasive Computing》讨论了智能环境中多个用户的活动。在这项工作中,他们研究了从家庭环境中的传感器读数识别多个用户的活动的基本问题,并提出了一种新的模式挖掘方法,在统一的解决方案中识别单用户和多用户活动。

基于传感器的群组活动识别

对群体活动的认识与单一或多用户活动识别的根本区别在于,目标是将群体的行为视为一个实体,而不是其中个体成员的活动。群体行为本质上是紧急的,这意味着群体行为的属性与其中个体行为的属性或该行为的任何总和根本不同。主要挑战在于对个体群体成员的行为,以及个体在群体动态中的作用及其与群体紧急行为的关系进行建模。当然,必须解决的挑战包括加入该组量化的个人的行为和角色,将角色描述的显式模型集成到推理算法中,以及针对非常大的群体和群体的可扩展性评估。群组活动识别适用于紧急情况下的人群管理和响应,以及社交网络和量化自我应用。

途径

通过逻辑和推理识别活动

基于逻辑的方法跟踪所观察到的行为的所有逻辑一致的解释。因此,必须考虑所有可能和一致的计划或目标。Kautz提供了一个正式的计划识别理论(plan recognition)。他将计划识别理论描述为限制的逻辑推理过程。所有操作,计划统一称为目标,识别器的知识由一组称为事件层次结构的一阶语句表示,这些语句在一阶逻辑中编码,定义了事件类型之间的抽象,分解和功能关系。

当新的行动到来时,不一致的计划和目标会被反复剪除。 此外,他们还提出了一些方法来调整目标识别器来处理个体的特殊行为,并给出了一个个体最近行为的例子。 Pollack等人描述了一个直接论证模型,该模型可以知道信念和意图描述的几种论证的相对强度。

基于逻辑的方法的一个严重问题是它们不能内在地表示不确定性。 它们没有提供任何机制来选择一种一致的方法而不是另一种方法,也无法决定某一特定计划是否比另一个计划更有可能,只要这两个计划能够一致到足以解释所观察到的行动。 也缺乏与基于逻辑的方法相关的学习能力。

基于逻辑的活动识别的另一种方法是使用基于答案集编程的流推理,《Answer Set Programming for Stream Reasoning》并且已经被应用于识别与健康相关的应用的活动,《 "HealthyLife: an Activity Recognition System with Smartphone using Logic-Based Stream Reasoning》其使用弱约束来建模一定程度的模糊性/不确定性。

通过概率推理识别活动

概率论和统计学习模型最近应用于活动识别,以推理不确定性下的行动,计划和目标。在文献《A Bayesian model of plan recognition》中,有几种方法明确地代表了关于代理人计划和目标的推理的不确定性。

使用传感器数据作为输入,Hodges和Pollack设计了基于机器学习的系统,用于识别个人在进行日常活动(如煮咖啡)时的识别。英特尔研究院(西雅图)实验室和西雅图华盛顿大学在使用传感器检测人类计划方面做了一些重要工作。《Mining models of human activities from the web》等工作中的一些从无线电频率标识符(RFID)和全球定位系统(GPS)的读数推断用户运输模式。

时间概率模型的使用已被证明在活动识别中表现良好,并且通常优于非时间模型。诸如隐马尔可夫模型(HMM)和更一般的动态贝叶斯网络(DBN)等生成模型是传感器数据建模活动的热门选择。条件随机场(CRF)之类的判别模型也被普遍应用,并且在活动识别方面也提供了良好的性能。

生成和判别模型都有其优点和缺点,理想的选择取决于它们的应用领域。可以在此处找到数据集以及用于活动识别的许多流行模型(HMM,CRF)的实现。

传统的时间概率模型,例如隐马尔可夫模型(HMM)和条件随机场(CRF)模型,直接模拟活动与观察到的传感器数据之间的相关性。近年来,越来越多的证据支持使用层次模型,这种模型考虑了人类行为数据中存在的丰富等级结构。《Hierarchical Activity Recognition Using Automatically Clustered Actions》这里的核心思想是模型不直接将活动与传感器数据相关联,而是将活动分解为子活动(有时称为动作)并相应地模拟基础相关性。一个例子可以是准备意大利面条的活动,可以将其分解为切割蔬菜的子活动或动作,在平底锅中煎炸蔬菜并在盘子上食用。这种分层模型的例子是分层隐马尔可夫模型(LHMMs)和分层隐马尔可夫模型(HHMM),它们已被证明在活动识别中明显优于其无等级的算法。

基于数据挖掘的活动识别方法

与传统的机器学习方法不同,最近提出了一种基于数据挖掘的方法。在Gu等人的工作中,活动识别问题被公式化为基于模式的分类问题。他们提出了一种基于判别模式的数据挖掘方法,该方法描述了任何两种活动类数据之间的重大变化,以识别统一解决方案中的顺序,交错和并发活动,Gilbert等人在空间和时间中使用2D角。并在空间和时间上使用分层过程进行分组,搜索区域增加。在层次结构的每个阶段,通过数据挖掘(Apriori规则)有效地学习最独特和最有描述性的特征。[30]

传感器用法

基于视觉的活动识别

通过各种摄像机拍摄的视频跟踪和了解行为的机制是一个非常重要且具有挑战性的问题。采用的主要技术是计算机视觉。基于视觉的活动识别已经发现了许多应用,例如人机交互,用户界面设计,机器人学习和监视等。基于视觉的活动识别工作经常出现的科学会议是ICCV和CVPR。

在基于视觉的活动识别中,已经完成了大量工作。研究人员已经尝试了许多方法,如光流,卡尔曼滤波,隐马尔可夫模型等,在不同的模态下,如单摄像头,立体声和红外。此外,研究人员还考虑了该主题的多个方面,包括单行人跟踪,群组跟踪和检测掉落物体。

最近,一些研究人员使用像Microsoft Kinect这样的RGBD相机来检测人类活动。深度相机获得了更多的信息,即正常的2d相机无法提供的深度。来自这些深度相机的感官信息已被用于生成具有不同身体姿势的人的实时骨架模型。这些骨架信息提供了有意义的信息,研究人员用这些信息来模拟人类活动,这些活动经过培训,后来用于识别未知活动。

Google AI Blog,介绍了 Google 一项最新研究成果——自监督学习下的视频着色模型,还可以直接用于视频目标跟踪和人体姿态估计。AI 科技评论根据原文进行了编译。

跟踪视频中的运动对象是计算机视觉中的一个基本问题,这对于动作识别(Activity recognition)、对象交互(Object interaction)或者是视频风格转化(Video Stylization)等应用的研究而言尤为重要。但是,由于教会机器以可视化的方式去跟踪视频中的主体,需要数量巨大且具有标签的数据(大规模标注视频数据不具有可行性)用来训练,所以这项任务也非常具有挑战性。

在论文《Tracking Emerges by Colorizing Videos》中,谷歌的研究人员们构思了一种卷积网络,该网络可以从单个参考帧中复制颜色,然后对灰度视频中的内容上色。通过这种做法,网络学会了在没有监督信息辅助的情况下,自动地可视化跟踪视频中的主体。重要的是,尽管该模型从未显式地进行过「目标跟踪任务」的训练,但是它却能够同时跟踪多个对象,甚至在遇到遮挡或者变形的情况下依然保持健壮性(Robust),这一切的实现都不需要用到任何标签数据。

Image.jpg

Image.jpg

基于视觉的活动识别等级

在基于视觉的活动识别中,计算过程通常分为四个步骤,即人体检测,人体跟踪,人类活动识别,然后是高级活动评估。

细粒度的动作定位-对象协同分割(Object Co-segmentation)

在基于计算机视觉的活动识别中,细粒度动作定位通常提供描绘人类对象及其动作类别的每个图像分割掩模(例如,Segment-Tube)。诸如动态马尔可夫网络,CNN和LSTM之类的技术通常用于利用连续视频帧之间的语义相关性。

自动步态识别-Gait recognition

识别特定人的一种方法是他们如何行走。步态识别软件可以用于在数据库中记录人的步态或步态特征简档,以便稍后识别该人,即使他们穿着伪装。

基于Wi-Fi的活动识别

当使用广泛可用的Wi-Fi信号和802.11接入点在室内和城市进行活动识别时,会产生很多噪音和不确定性。这些不确定性可以使用动态贝叶斯网络模型建模。在可以推断用户交错目标的多目标模型中,应用了确定性状态转移模型。另一种可能的方法是在概率方法中对并发和交织活动进行建模。[38]用户动作发现模型可以对Wi-Fi信号进行分段以产生可能的动作。

【来源:wiki;学界 | 谷歌新研究,自监督视频上色约等于目标追踪和姿态估计

发展历史

描述

在通过逻辑和推理识别活动途径中,Kautz的计划识别1986年的《Generalized Plan Recognition.》和 1987年《A formal theory of plan recognition》在最坏的情况下具有指数时间复杂度,指数按照输入层次的大小来决定。 Lesh和Etzioni更进了一步在1995年《A sound and fast goal recognizer》,提出了扩大目标识别的方法。与Kautz的计划库明确表示的方法相比,Lesh和Etzioni的方法可以从域原语中自动构建计划库。此外,他们还为大型计划图书馆引入了紧凑的表示和有效的目标识别算法。

在通过概率推理识别活动中,概率论和统计学习模型最近应用于活动识别,以推理不确定性下的行动,计划和目标。1993年,在文献《A Bayesian model of plan recognition》中,有几种方法明确地代表了关于代理人计划和目标的推理的不确定性。

使用传感器数据作为输入,英特尔研究院(西雅图)实验室和西雅图华盛顿大学在使用传感器检测人类计划方面做了一些重要工作。《Mining models of human activities from the web》等工作中的一些从无线电频率标识符(RFID)和全球定位系统(GPS)的读数推断用户运输模式。除此之外,2005年,Ravi, N.等人《Activity recognition from accelerometer data》提出基于加速度传感器来测量活动。同样的工作还有Bao, L., 和 Intille, S. S.提出了《Activity recognition from user-annotated acceleration data》

时间概率模型的使用已被证明在活动识别中表现良好,并且通常优于非时间模型。诸如隐马尔可夫模型(HMM)和更一般的动态贝叶斯网络(DBN)等生成模型是传感器数据建模活动的热门选择。条件随机场(CRF)之类的判别模型也被普遍应用,并且在活动识别方面也提供了良好的性能。如《Gaussian mixture based HMM for human daily activity recognition using 3D skeleton features》;《Accurate activity recognition in a home setting》等

近年来,越来越多的证据支持使用层次模型,这种模型考虑了人类行为数据中存在的丰富等级结构。2011年,TLM van Kasteren等人提出的《Hierarchical Activity Recognition Using Automatically Clustered Actions》。这里的核心思想是模型不直接将活动与传感器数据相关联,而是将活动分解为子活动(有时称为动作)并相应地模拟基础相关性。一个例子可以是准备意大利面条的活动,可以将其分解为切割蔬菜的子活动或动作,在平底锅中煎炸蔬菜并在盘子上食用。这种分层模型的例子是分层隐马尔可夫模型(LHMMs)和分层隐马尔可夫模型(HHMM),它们已被证明在活动识别中明显优于其无等级的算法。

基于WiFi的识别中,2004年的《"High-level Goal Recognition in a Wireless LAN》首先提出了这个观点,它使用的就是动态马尔科夫来完成的。

除此之外,基于视觉的活动识别中,Poppe, R.对以机器视觉中的人体活动识别进行回顾《 A survey on vision-based human action recognition》,2018年《Tracking emerges by colorizing videos 》是 Google 一项最新研究成果——自监督学习下的视频着色模型,还可以直接用于视频目标跟踪和人体姿态估计。AI 科技评论根据原文进行了编译。

【来源:wiki;学界 | 谷歌新研究,自监督视频上色约等于目标追踪和姿态估计

主要事件

年份事件相关论文/Reference
1992Want, R.提出多人的活动识别Want, R., Hopper, A., Falcao, V., & Gibbons, J. (1992). The active badge location system. ACM Transactions on Information Systems (TOIS), 10(1), 91-102.
1993Charniak, E., & Goldman, R. P.提出计划识别,是一种高模式的活动识别Charniak, E., & Goldman, R. P. (1993). A Bayesian model of plan recognition. Artificial Intelligence, 64(1), 53-79.
2004Bao, L., & Intille, S. S.使用加速度传感器提出活动识别Bao, L., & Intille, S. S. (2004, April). Activity recognition from user-annotated acceleration data. In International Conference on Pervasive Computing (pp. 1-17). Springer, Berlin, Heidelberg.
2005Ravi, N., Dandekar, N.基于加速度传感器提出活动识别Ravi, N., Dandekar, N., Mysore, P., & Littman, M. L. (2005, July). Activity recognition from accelerometer data. In Aaai(Vol. 5, No. 2005, pp. 1541-1546).
2010Poppe, R.对基于视觉的人类活动识别进行回顾    Poppe, R. (2010). A survey on vision-based human action recognition. Image and vision computing, 28(6), 976-990.
2018  Vondrick, C., Shrivastava,通过着色进行优化。Vondrick, C., Shrivastava, A., Fathi, A., Guadarrama, S., & Murphy, K. (2018).   Tracking emerges by colorizing videos  . arXiv preprint arXiv:1806.09594.

发展分析

瓶颈

短时间的活动识别问题(Temporal Action Proposals) - 在许多大规模视频分析场景中,人们有兴趣在长的,未修剪视频中定位和识别在短时间间隔内发生的人类活动。

短时间的活动定位(Temporal Action Localization)- 这种搜索问题阻碍了各种现实世界的应用,从消费者视频到监视,人群监测和老年人护理。

视频中的密集字幕事件(Dense-Captioning Events in Videos)- 大多数自然视频包含大量活动。 例如,在播放钢琴的男子的视频中,该视频还可能包含另一名男子跳舞或人群拍手。 此任务旨在解决密集字幕事件的挑战,包括检测和描述视频中的事件。

未来发展方向

对于谷歌的自监督学习下的视频着色模型,谷歌的结果表明,视频着色提供了一种信号,可以用于在没有监督信息的情况下学习跟踪视频中的对象。此外,他们还发现模型系统的失败与视频着色的失败有关,这表明要进一步改进视频着色模型可以从推进自监督跟踪研究入手。

对未来活动识别的发展,在《The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary and Workshop Papers 》中提出有以下的问题值得研究。

  • Trimmed Activity Recognition - 对活动识别修剪
  • Spatio-temporal Action Localization - 对时间空间的活动定位
  • Trimmed Event Recognition - 对事件识别修剪

【来源:机器之心;
【重磅】2017奥斯卡大奖揭晓,群集智能AI成功预测12项(技术解析)
  】

Contributor: Ruiying Cai

相关人物
Nikhil Dandekar
Nikhil Dandekar
Gary M. Weiss
Gary M. Weiss
简介
相关人物