霖雨铃作者AI TIME 论道来源王菁编辑

人机交互的终极状态——人机共生

本文讲述了四位重量级嘉宾论道人机交互的发展及未来。

在电影《少数派报告》中,汤姆·克鲁斯扮演的角色站在虚拟屏幕前,不用触摸任何实质的东西,仅靠一个特殊手套就能隔空操控数据。

虽说电影中的场景是虚构的,但“隔空操控”人机交互场景,却可以真实发生在我们身边。

在未来,我们隔空就能操控电脑、手机屏幕;智能设备会看你的“脸色”行事;甚至盲人也能靠字体感知准确地打字。

谷歌 Motion Sense 隔空切歌那么,这些科幻味十足的场景,离我们还有多远?当前的人机交互,发展到什么程度了?

第七期AI Time《论道人机交互VS智能》,我们邀请到了清华大学计算机科学与技术系长聘教授史元春、中科院软件所研究员田丰、中科院计算所研究员陈益强、小小牛创意科技CEO曹翔四位重量级嘉宾,论道人机交互的发展及未来。

人机交互发展史

1979年,当年轻的乔布斯拜访施乐PARC研究中心时,他看到了施乐新发明的图形用户界面(GUI),相比当时的文本命令行界面,程序图标、窗口化、下拉菜单和绚丽的图像效果把乔布斯狠狠地震撼了。

“仿佛蒙在我眼睛上的纱布被揭开了一样。”《乔布斯传》中如此描述乔布斯当时的感受:“我看到了计算机产业的未来”。

乔布斯回到苹果后,迅速将GUI移植到苹果产品上,随后上市的Macintosh取得了轰动效果。

史元春教授介绍人机交互发展史今天我们习以为常的触摸屏或图形用户界面,在40年前尚是石破惊天的革命。

在计算机横空出世的这近半个多世纪里,有一些学者做出了巨大的、直接的贡献。

《创新者》叙述了计算机发展史上的“伟人”

Vannevar Bush

1945年,在电子计算机尚未“出世”时,范内瓦·布什就发表了题为“As We May Think”的文章,形象描述了未来个人电脑——一种被称为MEMEX的机器,阐释了直接交互、超链接、网络存储等概念。

J.C.R Licklider

1960年,约瑟夫·利克莱德提出“人机共生”的思想,并在布什的领导下通过美国国家科技计划大力支持了人机共生理念下的图形与可视化、虚拟对象操控、互联网络等研究项目,在他的主导下,个人电脑、互联网络的标志性关键技术在六七十年代逐次诞生了。

约瑟夫·利克莱德领导的交互式计算,不但研发了分式操作系统,而且直接地引导了图形技术。

在Vannevar Bush、J.C.R Licklider、 Doug Engelbart、Bob Taylor等先驱的推动下,在语言学、心理学、计算机科学的共同参与下,计算机从没有用户界面,到有了图形用户界面,开创了个人电脑以及互联网络等惠及整个社会的新产业。

未来,在新的传感和多媒体技术的共同支持下,机器将可以通过感知和数据处理技术来理解我们,来理解周围的环境,实现更自然、更智能的人机交互

研究及应用现状

每位嘉宾就所做所见,讲述了人机交互正在或即将发生的场景,这些场景基本代表了人机交互最新、最前沿的研究方向。

Wonder Painter

现实版神笔马良

视频中展示的场景,就是曹翔老师所做工作的典型例子。一张普通的纸,一支普通的笔,画下天马行空的图画,再由手机采集起来,瞬间就可以转化成三维的动画。

曹翔老师希望通过这项技术,打破普通人表达创意的门槛。

输入技术和相关理论

自然人机交互具有输入非精确性等新型特征,同时EMG等新的输入通道为自然人机交互提供了研究机遇。如何建立针对新型特征的运动模型,并利用生理等新型通道感知用户交互意图是人机交互研究的重点之一。

田丰老师就此介绍了自己的两项工作。

  • 一是运动目标获取非确定性模型。

在运动的画面中,如何知道用户真正想点击的是哪一个模块?其基本思路是:

1. 构建落点分布模型,揭示落点分布与目标初始位置、大小、gal度间的关系

2. 对目标获取错误率进行预测

3. 增强移动目标获取成功率

据田丰介绍,这项研究可帮助帕金森病人做辅助诊断。

  • 二是基于EMG的交互意图隐式感知技术。

想象一下,你拿起一支笔,或者喝了一口水,不等你给机器传达命令,它就通过你的肌肉电信号,感知到了你现在正在做什么。这就是田丰目前在做的另一项研究。

该项工作的主要思路是:

1.提出一种通过肌电感知技术对日常手部动作及所接触物品属性进行感知的方法

2. 通过布置手臂上的传感器捕获手部活动时的EMG信号

3. 提取能表征EMG信号的均方根、AR系数等特征并通过机器学习方法识别物体

多模态协同感知

陈益强老师指出,普适计算时代,未来的人机交互模式应该是多模态的。我们既可以用键盘、鼠标、语音进行机器操作,也可以用手势、表情、唇语进行操作。

围绕“多模态”设想,陈益强提到了自己的两项工作。

  • 一是基于多模态感知理论的手语识别。陈益强将面部识别、手势动作识别和手语识别相融合,来提高手语识别的精度,以期帮助残障人士和外界沟通。
  • 二是基于多模态感知理论的人机交互方法,利用语音,视觉,可穿戴等等,使机器人获知用户当前复杂行为及情感状态。陈益强提到:“人机交互的终极目标,是达到人机之间的无缝互动,仿佛人和人在交互一样。因此,机器要准确感知到人的当前动作、行为甚至情绪。我们基于多模态手段,如语音、面部表情、可穿戴生理指标检测等,试图解决这个问题。”

自然用户意图的准确理解

在使用手机软键盘时,你有没有误触的苦恼?26个字母挤在狭窄的输入界面里,再配上胖乎乎的手指,点错的经历太多了。

这是触屏这种自然交互界面上典型的难题:胖手指难题。输入信号脱离了精准的接口设备,还有可能达到精准的输入效果吗?

史元春教授的研究工作,提出了基于贝叶斯推理的自然用户意图理解框架,建模用户行为特征,在模糊的输入信号上推测用户的真实意图。你点的不准没关系,算法可以猜得准。基于这项技术,史元春教授的团队已经研究实现了手机、平板、头盔、电视等一系列接口上的输入法,输入准确度大幅度提高,且几乎不需要视觉瞄准,进而还能支持盲人用户准确实现软键盘输入。

未来的接口也会延伸感知人的操控行为,史教授正在研制的手机前置摄像头上就能:“感知到人手在界面上的变化后,我们就能以此做出新的‘输入法’。比如手握手机的任意边框或位置,就可以输入信息、访问界面。甚至和桌子的交互,也能变成对手机的操作。”

全手型感应

“这些操作无需经过人眼确认,通过字体感知即可实现准确输入。”

盲输入技术

这些成果已见诸实际应用,如:电容屏防误触技术部署在了华为MATE系列千万量级手机上,智能输入意图推理算法应用在搜狗华为的输入法无障碍手机交互技术应用于手机淘宝和支付宝等。

史元春教授指出,要建立一套理解人的意图表达的计算框架,我们还要继续在理论和传感技术上做更多研究。

技术思辨

几位嘉宾就人机交互相关问题,进行了思辨和讨论。

人机交互的理论和方法
Q1: 交互界面的构建有计算模型吗?
Q2: 如何定量评估界面设计的效果?      

田丰认为交互界面的构建是有计算模型的,但针对自然人机交互,研究者做了“点”上的研究,还没有完全系统化。

史元春教授同意以上观点,并指出定量评估的方法虽有,但很不充分。不过借助相应的传感技术,定量评估的原理和技术都在不断拓展,这从红外反射监测血流、血压参数、情绪变化等一系列应用上就可以看出。

EQ-Radio 无线信号监测

曹翔补充道:为什么人机交互很难用计算机模型衡量?因为人机交互的任务是多样的,且越来越娱乐化。这令交互效率很难界定。

“我们越来越需要通过生理指标衡量人机交互的体验,这里面一定需要定量数据。”

那么,哪些东西可计算建模,哪些东西不能计算建模呢?曹翔认为明确的任务性的工作相对容易建模,因为目的很清晰;体验性的、娱乐性的、沟通性的工作比较难用计算的方式建模,因为其中夹杂着大量非简单人机交互的内容,例如人与人之间的互动等。

人机交互人工智能的关系
Q1: 在中文上,两者都有关于“人”的研究,有共同的研究内容和方法吗?
Q2: 两者研究成果的价值体现有何异同?
Q3: 智能人机交互主要指什么?
Q4: 人机交互研究对 AI 有贡献吗? 

陈益强提出:要做好智能人机交互,必须做到个性化。人脑智能分为三个部分,中枢神经、小脑和大脑,这三部分体现了不同程度的智能,可对应人机交互中的不同智能应用程度。

比如神经智能如中枢神经控制下的膝跳反射或条件反射,就可和键盘鼠标触屏技术等传统人机交互技术相对应,注重实时的感知与执行,实现敲一下键盘,屏幕就弹出一个字。而像语音识别、手势识别这一部分新型人机交互,就类似于小脑智能部分,侧重于基于学习或预测的执行,过程包括了感知-学习-执行。而智能人机交互的终极目标,需要在感知刺激的基础上不仅有学习,还应有知识推理,而后决策执行,这类似于大脑智能层次,到了这个部分,人机交互应该能做到带情感甚至带有价值判断的智能人机交互

中科院计算所研究员陈益强

史元春教授认为,人机交互应该让机器更好的适应人,适应人的本性,适应人的操控能力、感知能力和认知能力。从“人” 的研究内容上来说,人机交互人工智能有差异,但出发点是一致的,即“人机共生”。目前看,人工智能的研究更多的体现在人的识别、语言的表达等数据密集型任务上的处理方法,人机交互的研究更偏重于对人的主动交互行为和感知能力的建模、传感和建立适应的接口技术,人机关系必定向着共生的方向发展,这些研究内容和方法会相互影响和适应,交叠的研究内容会越来越多。

“做人工智能最后要接触人机交互,做人机交互最后也要接触人工智能。”

清华大学计算机科学与技术系长聘教授史元春

田丰提出了人机交互人工智能从交替沉浮到协同共进”的观点。

未来的计算机将是一个智能体,人与智能计算机的交互,即是人机协同;而从人工智能的角度讲,自动驾驶、自动诊断也讲求人机协同,两者殊途同归。

人机交互想解决不确定性,就需学习人工智能的方法,两者互相支撑,协同并进。

中科院软件所研究员田丰曹翔补充道:机器在不断地取代人力,未来所有带“老”字的职业,都将被AI取代,例如老司机、老中医等。为什么呢?因为AI最擅长数据和经验,完全依靠经验驱动的职业很可能被AI取代。创造性的、沟通性的、娱乐性的工作,则是不可被AI取代的,这就体现出了人机交互的重要性。

陈益强不完全同意曹翔的观点,他指出:“我认为带‘老’字的职业都不会被取代。例如一台自然语言处理及知识推理能力极强的类似医疗诊断机器,它可以借助公开发表的文献(大数据)习得80%的经验,但剩余20%的疑难杂症(小数据)无法习得,这部分只能求助于‘老’医生。”

如何评论未来交互技术的发展?

Q1: 最近出版的《科技之巅》总结了近十年全球百项突破性技术,包括IT、能源、生医、材料等共十章。其中,人工智能人机交互分列第一和第二章,HCI主要集中在手势、语音交互和穿戴产品,可否对现在人机交互技术和未来交互技术的发展做评论?

Q2: 您最关心的HCI挑战是什么?

史元春教授讲道:“未来计算机的形态会变化,甚至可能不存在了,但计算机技术会持续为我们服务,成为人机共生的一部分,交互接口、交互任务会有很大的变化,但会更自然,更智能。”

陈益强指出,普适计算可以使手环、穿戴设备等计算机形式化于无形,就像看不见摸不着的空气一样。例如穿戴设备可以附着在衣服、鞋子里,实现人机共生。最后在材料、计算技术的进步下,真正实现对人类自然行为的意图理解,助力解决人口老龄化、阿尔茨海默病早期预警等。

穿戴、手环电子设备曹翔最关心的是,如何通过机器、技术放大个人的创造力,从而帮助个人在社会和工作中立足。

“我们五感的潜力,不只局限于物理世界的刺激。随着技术的进一步发展,我们可以挖掘更多的感官体验力,创造全新的体验。”

小小牛创意科技CEO曹翔田丰老师更关注如何通过人机交互的研究推动相关产业的发展,产生主流的影响。例如电子白板对中国教育信息化的推动,人工智能对帕金森、脑卒中、阿尔茨海默、痴呆等做辅助诊断等。

值得一提的是,田丰带领团队研发的笔式电子教学系统获得了国家科技进步二等奖,并与协和医院共同取得了国家卫健委颁发的医疗健康人工智能应用落地30最佳案例的荣誉。

人机交互的人才发展路径  
Q1:工业界需要什么样的交互人才?
Q2:学校如何培养人机交互人才?
Q3:如何判断自己适不适合做人机交互

史元春教授提到:“我们培养的人才应该能够发现交互难题,并且能通过科学的方法来解决这个问题。”

曹翔赞同史元春教授的观点,并补充道:“交互设计师、用户研究员等对口培养的专业,不难找工作;难找工作的是把人机交互作为一个研究领域去学习的学生,因为现有的一个萝卜一个坑的职业体系,并不太适合跨学科的人才,但创业特别需要这样的人。”

如何判断自己适不适合做人机交互?曹翔提醒道,跟“风口”很不靠谱, 兴趣才是首要的。

在会议的最后,我们发布了OAG-WhoIsWho系列竞赛,点击阅读原文,即可查看详情。

未来,人机交互会发展到如何程度, 你最期待的人机交互场景是什么?期待你的留言分享。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业人机共生人机交互
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

普适计算技术

普适计算是一个强调和环境融为一体的计算概念,而计算机本身则从人们的视线里消失。在普适计算的模式下,人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理。普适计算是一个涉及研究范围很广的课题,包括分布式计算、移动计算、人机交互、人工智能、嵌入式系统、感知网络以及信息融合等多方面技术的融合。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

人机共生技术

人机共生是人类和电子计算机之间合作互动的一个预期发展。这将涉及人类和电子设备之间非常密切的耦合。主要目的是1)让计算机促进公式化思维,因为它们现在促进了公式化问题的解决;2)让人类和计算机能够合作做出决策和控制复杂的情况,而不依赖于预先确定的程序。在预期的共生伙伴关系中,人类将设定目标,制定假设,确定标准,并进行评估。计算机将会做一些常规的工作,为人类在技术和科学思考方面的见解和决策做好准备。初步分析表明,共生伙伴关系将比单独的人能更有效地进行智力活动。实现有效合作关系的先决条件包括计算机分时、内存组件、内存组织、编程语言以及输入和输出设备的发展。

暂无评论
暂无评论~