Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部发布

人机交互新突破:百度发布主动多模态交互技术

百度的工程师们率先在小度机器人(DuRobot)上开展了一项技术革新。小度机器人落地于百度公司各个办公大厦大堂,提供迎宾咨询、引领讲解、互动娱乐等功能,是百度对外迎宾的重要一环。

近年来服务机器人逐渐进入商场、餐馆、银行、机场等场所,给人们提供了简单的咨询、导航等服务。 然而,由于多数服务机器人仅能被动响应用户的请求,同时,大多数宾客不了解服务机器人的功能,甚至可能不知道它能否正常工作,这种情况下很多人不会选择贸然去咨询服务机器人。这种现象导致多数时候服务机器人难以起到实际作用,且使用和交互的频率非常低,变成“移动平板电脑”。 如果服务机器人能主动关注工作区域的场景,针对有潜在需求的访客,在客户主动请求之前,就能发起交互,既能给人宾至如归的感受,又能主动让用户了解到服务机器人的功能,使得机器人更加智能化,人性化,提升宾客体验。

为此,百度的工程师们率先在小度机器人(DuRobot)上开展了一项技术革新。小度机器人落地于百度公司各个办公大厦大堂,提供迎宾咨询、引领讲解、互动娱乐等功能,是百度对外迎宾的重要一环。这项技术的目的在于让小度机器人能理解当前场景,发掘用户潜在意图,主动发起第一步交互。虽然主动交互也在学术界已经有一些初步的工作,主要通过距离传感器、摄像头等设备感知行人意图,按照预设的交互规则,发起简单的、宽泛的交互,比如简单问候“你好”和握手等等。但这些交互模式通常非常有限(比如小于10种)。为了使得机器人能够更加理解场景的细节,带来更加智能、友好、和自然化的交互体验,百度提出了全新的“基于视觉记号和Transformer模型的人机主动交互系统”(TransFormer with Visual Tokens for Human-Robot Interaction,简称TFVT-HRI).这套系统不仅能观察场景主动发起交互和引导,其交互的动作更是包含千余种多模态动作,使其能够像人类一样表现出自然的主动问候。 接下来让我们跟着demo视频,看看小度机器人的新技能吧。

1. 工作原理解释

百度提出的TFVT-HRI框架,是业内首次尝试将主动交互扩展到集表情、动作、丰富话术于一体的多模态交互模式。通过目标检测器,将可能对主动交互产生影响的相关物体,提取为涵盖视觉以及相对空间信息的视觉标记(visual tokens),然后利用Transformer网络学习一段时间内visual tokens之间的关系,从而实现对交互主体的时空建模,预测该交互主体是否有潜在交互意愿,当前帧合适的多模态动作是什么。

该工作以小度机器人为主体,构建数据采集、模型训练、端上嵌入式设备部署一套完整的主动交互解决方案。小度机器人工作的真实环境(通常是公共场所,大堂等)十分复杂,各种各样的光照环境也给计算机视觉技术为基础的主动交互计算带来很大挑战。为此,百度在多个大堂采集了不同场景的视频片段,标注其中合适的触发时间点,以及合适触发的多模态动作。共计标注了上千小时的视频片段,其中包含了3800个需要发起主动交互的场景。数据和交互专家们标注了超过1000组多模态动作组合,同时使用采样技术获得足量负样本,辅助训练。

TFVT-HRI框架包含三个模块:Visual Token提取器、多模态动作表征、基于Transformer的交互决策模型,如下图所示。TFVT-HRI框架首先以Yolo作为视觉特征提取器,提取了每帧图像中的多个物体和人物的区域,并结合了位置信息生成表示(a)。接下来,多帧连续信息,通过Transformer模型进行编码(b)。通过这种方式,模型不仅仅能获取图像中每一个物体随时间运动的轨迹,人物的表情和动作变化,还能获取到人物之间的互动关系,对于场景的理解起到了至关重要的作用。另一方面,我们将专家标注的多模态动作进行编码,其中,语言利用百度的大规模语义理解模型ERNIE进行编码,动作则利用Embedding表示(c)。这种编码方式在语言上具有很好的泛化和理解能力。模型最终需要决策是否发起主动交互,以及选择的多模态动作。

2. 效果评估

该项目由于使用视频流作为输入,输出多模态动作ID,这样的做法和当前的视频动作识别十分类似,因此百度采样目前最优的视频动作识别模型R(2+1D)+ig65m作为基线模型和TFVT-HRI进行对比。该基线模型使用65M社交网络视频数据做预训练,并且利用收集的数据集finetune。考虑到多模动作的合适性很难自动化评估,百度采用了真机部署模型,真人体验,问卷调查的方式评估动作的合适性,这样自动化评估指标只注重多模动作触发的时机的合适性,因而使用精准率、召回率、F1等指标。从下表可以看出,基线模型由于缺少交互对象时空建模能力,在全新的测试集上精准率显著低于TFVT-HRI模型。

基于Paddle Inference,将模型部署到机器人的嵌入式运算设备Jetson AGX后发现,TFVT-HRI模型可以达到6.25FPS,而基线模型(使用轻量版本)只有1.89FPS,考虑到基线模型延迟明显,严重影响用户体验,在用户实验部分,百度团队主要对比了不使用主动交互的传统模式。

有30名新入职员工参加了我们的用户问卷实验,他们之前全都没有体验过小度机器人,避免了主观印象的影响。问卷涵盖了情绪指标:效价(Valence)和唤醒度(Arousal);态度指标:整体舒适程度、自然程度、友好和智能程度。

独立样本T检验(Independent-Samples T Test)结果显示:两组被试在效价(t(28)=1.218,p=0.233>0.05)和唤醒度(t(28)=1.906,p=0.067>0.05)均不存在显著差异。将Valence-Arousal数据映射到社会心理学中常用的Russel情感极坐标模型,可以发现两种交互系统都能给用户带来偏向『激动』(EXCITED)的正向情绪。

虽然两种模式唤起的用户情绪无显著差异,但在其他主观指标上,两种交互系统差异明显。Levene’ Test表明,除了“智能的”之外,其他变量方差齐性(homogeneity of variance)的假设成立,因此我们对“整体舒适度”、“自然的”、“ 友好的”进行了独立样本T检验,对“智能的”进行了t'检验。结果显示,两组被试对“整体舒适度”(t(28)=2.141,p=0.041<0.05)、“智能的”(t' (24.679)=2.225,p=0.035<0.05)、“自然的”(t(28)=2.354,p=0.026<0.05)和“友好的”(t(28)=2.705,p=0.012<0.05)评分均存在显著差异,TFVT-HRI框架的评分显著高于被动交互组。

据悉,百度的这项新技术已经全面落地于小度机器人,并且在统计数据上取得了显著的效果。以小度机器人服务的某大堂为例,10月用户对比去年成功Query查询量从1070个提升到5077个,平均有效服务时间从3.109% 提升到9.268%,提升十分显著。

3.总结

作为小度机器人进化的第一步,百度提出的TFVT-HRI主动交互框架使用visual tokens和Transformer对交互主体进行时空建模,理解他们的行为、意图,然后引导机器人主动发出包含表情、动作、丰富话术的多模态交互,带给用户更加舒适、自然、友好的体验。目前该框架专注于主动发起第一次交互,后续百度也在探索引入用户反馈机制,实现在线学习,强化学习,以及更大的交互动作空间。百度该技术也已经开源于PaddleRobotics库,致力于向机器人行业输出高质量的AI和深度学习解决方案。

开源地址:https://github.com/PaddlePaddle/PaddleRobotics

文章地址:https://arxiv.org/abs/2012.04832

产业百度小度机器人TFVT-HRI框架真实环境DuRobot
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

视频动作识别技术

视频动作识别任务涉及从视频剪辑(一串二维帧序列)中识别不同的动作,其中的动作可能贯穿整个视频,也可能不会。这有点儿像图像分类任务的一种自然扩展,即在多帧视频中进行图像识别,然后从每一个帧中聚集预测结果。

推荐文章
暂无评论
暂无评论~