腾讯张正友:计算机视觉的三生三世

本文将介绍腾讯 AI Lab & Robotics X 主任张正友博士在 CCF-GAIR 2019 大会上所做的报告,讲述计算机视觉研究的历史和未来。

7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7 月 12 日,腾讯 AI Lab & Robotics X 主任,ACM Fellow, IEEE Fellow, CVPR 2017 大会主席张正友博士为 CCF-GAIR 2019 主会场「AI 前沿专场」做了题为「计算机视觉的三生三世」的大会报告。以下为报告全文——

大家好!非常感谢雷锋网的邀请,让我有这个机会给大家做个分享。今年是中国人工智能四十周年,在这四十年间发生了很多事情,雷锋网让我跟大家讲一讲计算机视觉的前世、今生和可能的未来。其实这个报告应该由我的好朋友香港科技大学权龙教授来讲,他比我早一年出国,而且他现在还在港科大潜心研究计算机视觉。我这些年间,还有好多年在做语音处理和识别、多媒体处理和机器人,所以我在计算机视觉上的研究史还不算很长。不过权龙教授有事没法参加,我只能滥竽充数,给大家讲讲计算机视觉的一些故事。

雷锋网找我是听说我开始研究计算机视觉比较早。我 1985 年浙大本科毕业,1986 年去法国,参与研发了可能是世界上第一台用立体视觉导航的移动机器人

图像处理

1986 年其实发生了很多事情,1986 年是我第一次参加国际会议,是在巴黎召开的 ICPR(世界模式识别大会)。在这次大会上,我碰到了复旦大学的吴立德教授,他带领了一支中国的代表团,并在会上做了一场大会报告,介绍了中国在模式识别上的研究现状,他们准备申请 1988 年的 ICPR 在中国召开。

这里需要提到一个关键性的人物,那就是普渡大学的傅京孙教授,他是模式识别领域的鼻祖。他是 1973 年第一届 ICPR 的主席,1976 年创建了 IAPR,1978 年创刊了 IEEE TPAMI,并担任第一届主编。本来他是支持 1988 年 ICPR 在中国召开的,但不幸的是 1985 年他去世了,所以 1988 年的申请没有成功。如果 1988 年 ICPR 能在中国召开,也许中国在模式识别计算机视觉上的发展会更提前。当然历史没有如果。ICPR 在中国的召开等到了三十年以后,2018 年在谭铁牛院士的带领下,ICPR 第一次在中国召开。

1986 年还有一个很重要的事件,就是我的法国学长马颂德回国,他创立了 NLPR(国家模式识别重点实验室)。NLPR 创立之后,吸引了大批国外的学者回国,同时邀请了很多国外的访问学者,中国计算机视觉领域开始与国际接轨。当然马颂德是中国科技界重要人物,后来担任科技部副部长。1997 年他还创立了中法联合实验室,这个实验室一半的研究人员都是法国人,这在中国也是一个壮举。

提到计算机视觉,离不开一个标志性人物,MIT 的教授 David Marr。1979 年,刚好 40 年前,他提出了视觉计算的理论框架。Marr 的理论框架有三个层次,从计算什么,到如何表达和计算,到硬件的实施。

具体到三维重建,Marr 认为从图像要经过几个步骤,第一个步骤叫 primal sketch,也就是图像处理,比如边缘提取。所以到八十年代中叶,计算机视觉的主要工作是图像处理。最有名的工作可能是 1986 年 MIT 一个硕士生发表的 Canny 边缘检测算子,基本上解决了边缘提取的问题。如下图所示,左边是原始图像,右边是检测出的边缘。

那时候还有一个比较有名的工作是华人科学家沈俊做的,他那时在法国波尔多大学。他比较了不同的算子。他的算子在有些图像方面要比 Canny 检测器要好。所以到了八十年代中叶,当我留学法国的时候,图像处理已经做的差不多了。

立体视觉及三维重建

幸运的是,几何视觉刚开始兴起。有两位代表人物,一位是法国的 Olivier Faugeras,他是我的博士导师,另一位是美国的 Thomas Huang,我们叫他 Tom。他们是好朋友,还一起写过文章。我 1987 年就认识 Tom,他对我有非常大的帮助。他培养了 100 多位博士,包括不少活跃在中国学术界和工业界的计算机视觉专家,他对中国计算机视觉的贡献是非常巨大的。

我很荣幸师从 Olivier Faugeras,参与开发了世界上第一台用立体视觉导航的移动机器人。1988 年我的第一个研究成果发表在第二届 ICCV 上,右边是在美国 Florida 开会的一张照片。那时候计算机视觉还没有红火,那届 ICCV 大概只有 200 个参会者,华人就更少了,大概只有我、权龙,还有 Tom 的学生翁巨扬。我在博士期间围绕三维动态场景分析做了不少工作,1992 年把这些整合成一本书发表。

现在我想举一个简单的例子,不定性的建模和计算,希望通过下面这一页 PPT 你们就能明白什么是三维计算机视觉

这里需要用到概率与统计,这非常重要,但现在做视觉的人往往忽略了。下面两条线代表了两个图像平面。左边图像上一个白点对应右边图像上一个白点。每个图像点对应空间一条直线,两条直线相交就得到一个三维点,这就是三维重建。同样,左边图像的黑点对应右边图像的黑点,两线相交得到一个三维点。但是图像的点是检测出来的,是有噪声的。我们用椭圆来代表不定性,那么图像的一个点就不对应一条线了,而是一个椎体。两个椎体相交,就代表了三维重建的点的不定性。这里可以看到,近的点要比远的点精确。当我们用这些三维重建点的时候就需要考虑这些不定性。比如当机器人从一个地方移动到另一个地方,需要估计它的运动时就必须考虑数据的不定性。

90 年代初我提出了 ICP 算法,通过迭代点的匹配来对齐不同的曲线或曲面。这个算法也用在很多地方。我们现在经常听到的SLAM,它其实就是我们以前做的从运动中估计结构,三维重建,不定性估计,ICP。事实上,SLAM 在 90 年代初理论上已经解决了。

1995 年我提出了鲁棒的图像匹配和极线几何估计方法,同时把程序放到网上,大家都以此作为参照。这可能是世界上第一个,至少是之一,把计算机视觉的程序放到网上让别人用真实图像来测试的。所以这个算法那时候就成为计算机视觉的通用方法。

1998 年我提出了一个新的摄像机标定法,后来大家都称它为「张氏方法」,现在它已经在全世界的三维视觉、机器人、自动驾驶上普遍应用,也获得了IEEE Helmholtz 时间考验奖。

1998 年我和马颂德对日益成熟的几何视觉做了总结,作为研究生教材由科学出版社出版。

1998 年还发生了很多事情,一个是 MSRA(微软亚洲研究院)的成立,一个是腾讯公司的成立。这两家看似无关的机构其实对中国计算机视觉的发展,对中国人工智能的发展,起了不可估量的作用。MSRA 给中国带来了国际先进的研究方法和思路,培养了一大批中国的优秀学者,同时也请了一些国外的研究学者来到中国。腾讯促进了中国互联网的发展,因为有互联网,中国研究人员能够几乎实时地接触到国际最顶尖的研究成果。所以这两个结合,对中国人工智能领域的发展起到了很大的作用。

中国计算机视觉界一个重要的标志性事件是 2005 年 ICCV 在北京召开,马颂德和 Harry Shum 担任大会主席,这标志着中国计算机视觉的研究水平已经得到国际的认同。我也很荣幸地从 Tom Huang 前辈手中接过 IEEE Fellow 的证书。

深度学习的崛起

可能几何视觉的理论已经比较成熟了,90 年代末,计算机视觉的研究开始进入物体和场景的检测和识别,主要方法是传统特征加上机器学习

那时候我做几何视觉做了很长时间,1997 年,我也开始尝试,开发了世界上第一个用神经网络来识别人脸表情的系统,用的特征是 Gabor 小波。虽然 20 多年前就开始人脸表情识别,但那时数据太少,一直到 2016 年我们才在微软把人脸表情识别技术商业化,在微软的认知服务上,大家都可以调用。

在传统特征加机器学习的年代,需要提一下一个里程碑的工作,那就是 2001 年的 Viola-Jones Detector。通过 Harr 特征加级联分类器,人脸的检测能够做得非常快,在 20 年前的机器上就能做到实时。这对计算机视觉产生了很大的影响。此后的循环是一波一波的新数据集推出,加一波一波的算法刷榜。

2009 年一个叫 ImageNet 的数据集出现了,这是斯坦福大学李飞飞团队推出的,这个数据集非常重要,它的意义不在于这个数据集很大,而在于几年后催生了深度学习时代。

2012 年,Geoffrey Hinton 的两个学生开发了 AlexNet,用了 8 层神经网络,6 千万参数,误差比传统方法降了十几个百分点,从 26% 降到 15%,从此开启了计算机视觉深度学习时代。这个 AlexNet 结构其实和 1989 年 Yann LeCun 用于手写数字识别的神经网络没有很大区别,只是更深更大。

由于 Geoffrey Hinton, Yoshua Bengio, Yann LeCun 对深度学习的贡献,他们共同获得了 2018 年的图灵奖。这个奖他们当之无愧。要知道 Geoffrey Hinton 1986 年就提出了 backpropagation,坐了 25 年的冷板凳。

深度学习时代还有一个里程碑的工作,2015 年,微软亚洲研究院的何恺明孙剑提出 ResNet,用了 152 层神经网络,在 ImageNet 测试集上的误差比人还低,降到了 4% 以下。

我在深度学习领域也有一点贡献。2014 年我和 UCSD 的屠卓文合作,提出了 DSN(Deeply- Supervised Nets)深度监督网络,虽然影响没有 ResNet 大,但也有近一千次引用。我们的想法是直接让输出监督中间层,使得最底层尽可能最大逼近要学习的函数,同时也缓解梯度「爆炸」或「消失」。

刚刚过去的 CVPR2019 可以被称为是华人的盛典,在组织者里面有很多华人面孔,包括大会主席朱松纯、程序委员会主席华刚屠卓文。在五千多篇投稿中,40% 来自大陆,最佳论文奖和最佳学生论文奖的第一作者也都是华人。所以中国的计算机视觉能力还是很强的,这一点值得骄傲。

计算机视觉的研究要回归初心

现在让我们回顾一下计算机视觉研究的演变,从最初的图像处理、立体视觉与三维重建、物体检测和识别,到光度视觉、几何视觉和语义视觉,到现在的深度学习打遍天下。这是让我担忧的。深度学习有很多局限性。

我认为接下来应该要回归初心,让光度视觉、几何视觉和语义视觉紧密结合起来,同时注入常识和领域知识,和语言进行多模态融合,通过学习不断演变。

我们腾讯 AI Lab 在这方面也开始做了一点点工作。比如我们的看图说话项目能够用语言描述一张照片的内容,2018 年 1 月,我们上线 QQ 空间 app 让视障用户「看到」图片。

我们还整合了计算机视觉语音识别自然语言处理技术,开发了一个虚拟人产品,探索多模态人机交互,赋能其他场景,助力社交。我们还开发了二次元的虚拟人来做游戏解说,它能实时理解游戏场景并将它描述出来。

那么现在的人工智能真的智能吗?想象一下,如果一个人想要盖住你的眼睛,你会怎么做?我是会躲开的。但是从我刚才播放的视频中可以看到,现在的监控系统显然没有这样的举止。现在的人工智能只是机器学习:从大量的标注数据去学习一个映射

什么是真正的智能?我想目前还没有定论,而且我们对我们自己的智能还没有足够的了解。不过我很认同瑞士认知科学家 Jean Piaget 说的,智能是当你不知道如何做的时候你用的东西。我认为这个定义是非常有道理的。当你无法用你学到的东西或天赋去面对时,你动用的东西就是智能。如何去实现有智能的系统呢?可能有很多条路,但我认为一条很重要的路是需要把载体考虑进去,做有载体的智能,也就是机器人。

在机器人领域,我提出了 A2G 理论。A 是 AI,机器人必须能看能听能说能思考,B 是 Body 本体,C 是 Control 控制,ABC 组成了机器人的基础能力。D 是 Developmental Learning,发育学习,E 是 EQ,情感理解、拟人化,F 是 Flexible Manipulation,灵活操控。最后要达到 G,G 是 Guardian Angel,守护天使。

腾讯做了三款机器人:绝艺围棋机器人、桌上冰球机器人,还有机器狗。可以为大家展示机器狗的视频,机器狗具备感知系统,能够绕开障碍物,看到悬空的障碍物能匍匐前进,看到前面一个人能蹲下来看着人。

我的报告就到这里,腾讯的 AI 使命是 Make AI Everywhere,我们一定会善用人工智能,让人工智能造福人类,因为科技向善。谢谢大家。

腾讯AI实验室
腾讯AI实验室

产业张正友腾讯AI Lab计算机视觉
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

华刚人物

华刚博士是微软亚洲研究院资深研究员,现任微软亚洲研究院计算视觉组负责人。他的研究重点是计算机视觉、模式识别、机器学习、人工智能和机器人,以及相关技术在云和移动智能领域的创新应用。

朱松纯人物

朱松纯是全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

屠卓文人物

加州大学圣地亚哥分校副教授,因在计算机视觉、医疗成像和深度学习领域做出的贡献而入选IEEE Fellow。屠教授是计算机视觉领域享誉国际的专家学者,分别获得俄亥俄州立大学博士学位和清华大学硕士学位,曾先后就职于加州大学洛杉矶分校、微软亚洲研究院和加州大学圣地亚哥分校。主要研究方向:计算机视觉、机器学习、深度学习、神经计算等。

孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

移动机器人技术

移动机器人是一种能够移动的自动机器。移动机器人具有在其环境中移动的能力,并且不固定到一个物理位置。移动机器人可以“自动”主要是指它们能够在没有物理或机电引导装置的情况下导航非受控环境。相比之下,传统的工业机器人或多或少都是固定的(stationary)机械臂或抓取组件。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

暂无评论
暂无评论~