撰文Tony Peng

特写 | CVPR十年轶事:走出象牙塔

过去几年曾出现在某 CVPR 上的论文,如今以 demo 甚至是产品的形式在展览会上重现,也是计算机视觉学者的一种幸福。

这不是石建萍第一次来 CVPR 了。过去这八年,她几乎没落下过一届,倒也习惯了每年办一次美国签证。只不过,这么多年以来,参加 CVPR 的身份却在不断变化:从一个本科生,到博士生,到研究员,再到如今商汤科技的研究总监。

她今年带来了五篇 CVPR 论文,其中一篇 oral 和两篇 spotlight,这个数量已经算是相当出色。商汤科技今年也破纪录地入选了 44 篇论文,仅此于谷歌的 45 篇。工业界的一家公司有 40 多篇论文入选 CVPR,这在过去绝对是难以想象的。

过去的十年里,CVPR 变了许多。曾经在学术界孤芳自赏的计算机视觉,如今走出了象牙塔,成为聚光灯下最璀璨的科技新星。会议的主角,从当年的向量机,到今天大行其道的深度学习;2010 年出世的 ImageNet 挑战赛 ILSVRC ,也在去年画上了一个句号……

十年前不过 1500 人的参会规模,今年已经超过了 6500 人;当年还来参会的学生们,现在不少都是工业界的高级研究员或是首席科学家……

多年的变迁,其中有委员会的推波助澜,也是时代变迁的必然结果。大部分人对这些变化欢欣鼓舞,也有不少人患得患失。这其中的故事,值得我们去回溯。

懵懂的华人学者

2011 年,即将从浙江大学竺可桢学院大四毕业的石建萍收到了来自 CVPR 委员会的邮件:恭喜您,您的论文入选了今年的 oral presentation(论文演讲报告)。这让她可激动坏了。

CVPR,全称 IEEE 国际计算机视觉模式识别会议,在计算机视觉领域是和 ICCV、ECCV 并称的三大顶尖会议。计算机学科的发展速度很快,前沿更新往往是日新月异,相比于 1-2 年才能面世的期刊,学者们都倾向于将论文投至年度学术会议。

入选 oral 意味着你的论文不仅受到了委员会的极大认可,还可以在参会者面前做 15-20 分钟的演讲报告(现在时间都缩短了)。CVPR 的总体论文录取率在 25%—30%,入选 oral 的录取率不超过 5%(2011 年为 3.5%),剩下的都是 poster(论文海报),以及在 2016 年才出现的第三种形式 spotlight,即简短的演讲报告。

据不完全统计,石建萍可能是当时国内第一个论文入选 CVPR Oral 的本科生。她研究的课题是为A Non-Convex Relaxation Approach to Sparse Dictionary Learning。Sparce Dictionary Learning 在当时还是比较主流的研究课题(以基本元素的线性组合以及这些基本元素本身的形式找到输入数据的稀疏表示,也称为稀疏编码)。不过,深度学习到来后,这些方法都没有容身之处了。

CVPR 是石建萍第一次接触国际顶尖会议。办妥了签证,她就准备动身前往美国。

那年的 CVPR 刚刚从前一年的旧金山来到了美国的内陆城市科罗拉多,参会者也从前一年的 2000 人掉到了 1000 多人。不比今天的 CVPR 要选在某某会议中心,那年的规格在一家皇冠假日酒店办也就足够了。酒店里的两个 Ballroom 被用作 oral,一楼的另外三个房间用来展示 poster,酒店零星地摆着一些来自工业界公司的展台,几张小桌子拼拼凑凑,上面叠放着招人启示。

多年来,CVPR 的日程也一直如此:周二到周四是大会正式日,周一和周五、甚至是周六则是 Workshop 和 Tutorials。

石建萍的 oral 被安排在周二中午,倒也一切顺利。剩下的时间,她就用来看 poster。那时候接收的论文也不多,一个半小时看个 40 多篇,不过因为是第一次来,大多她也看不太懂。

石建萍在 CVPR 2011 的 oral 视频截图。

在 2011 年以前,即使是国内一流的学术机构,包括清华、浙大和中科院自动化所,当时能投中 CVPR 论文的并不多。不是因为国内学者们的研究能力不足,而是在 CVPR 上投中论文,需要许多「门道」:选题是否合适?英文写作是否规范?实验该怎么做?当时的国内学术机构缺乏海归学者和相应的学术环境,这让他们往往把不准国际会议的脉。

CVPR 2017 的领域主席、如今在俄勒冈州立大学任教的李伏欣,回忆起 2008 年以前在自动化所就读博士的场景时,感慨道,「那时候许多同学的论文英文写作还都是我改的。大家缺乏专业的学术训练,不了解如何把握实验设计和论文写作中的各种细节。」

李伏欣还谈到了当年写论文的一个细节,「我刚出国的时候,当时写论文被改的最多的就是『get』改成『obtain』,『to do something』改成『in order to do something』,看起来是一样的东西,但就是口语和书面语的区别。」

另一个值得一提的原因是:直到中国计算机协会在 2010 年左右(具体时间无法考证)将 CVPR 定为 A 级会议之前,国内学术机构对 CVPR 也没有那么重视。

微软亚洲研究院(简称微软亚研)和香港中文大学多媒体实验室(简称港中大实验室)是当时国内计算机视觉的两大重镇。2009 年 CVPR 的最佳论文便出自这两家学术机构之手,论文的第一作者何恺明此后又带来了残差网络 ResNet,也因此获得了 CVPR 2016 的最佳论文,这已经是后话了。

石建萍是幸运的,当时浙江大学空降了一位海归学者——来自加州大学伯克利分校的张志华。据石回忆,张志华是一心做纯科研的学者,极力推荐学生们读数学的书,也不让他们去做和项目相关的东西。后来,张志华先后在上海交大和北京大学任教,如今是北京大学数学科学学院教授。

张志华的引路,让石建萍与计算机视觉结缘。尽管当时为她写推荐信的老师曾劝她学习比较火的领域,比如数据挖掘(data mining),但石建萍还是选择了当时中国计算机视觉领域的重镇——香港中文大学,并投身计算机视觉系的贾佳亚教授门下,后者在 2017 年加入腾讯任优图实验室杰出科学家。

汤晓鸥教授的前瞻

时间来到 2012 年,多伦多大学教授、被誉为「深度学习之父」的 Geoffry Hinton 和他的学生们带着 AlexNet 在那一年的 ImageNet ILSVRC 挑战赛上技压群雄,top5 错误率比第二名低了足足 10%。这篇被 NIPS 2012 收录的论文也被认为是开启深度学习热潮的一块里程碑。

可在当时,将深度学习应用到计算机视觉的并不只有 Hinton 组。2011 年,当时还在斯坦福大学任教的吴恩达联合 Jeff Dean 和 Greg Corrado 在谷歌创立了 Google X 项目,用 16000 个中央处理器核心,通过深度神经网络,让该系统仅通过收看大量的 Youtube 视频来识别猫。

而在中国,由汤晓鸥教授所带领的香港中文大学实验室也在 2011 年起开始探索深度学习人脸识别方面的可能性。

林达华是如今香港中文大学实验室的主任。2005 年从中科大毕业之后,林达华曾经在港中大实验室就读硕士学位,和汤教授有了一段师生缘。2007 年,他获得全额奖学金到 MIT 攻读计算机科学博士学位。2014 年,林达华受汤教授的邀请回到了港中大任教并成为商汤科技的创始成员。

据他回忆,港中大实验室研究人脸识别可以追溯到 2000 年。「我在 2005 年读硕士的时候,当时我们主要是用子空间分析——一种线性模型的方法来做人脸识别,也取得了一些成果,但是直到深度学习之前,性能水平始终难以做到商用。」

转机出现在 2011 年,当时在微软亚研的邓力教授(如今是美国金融巨头 Citadel 的首席人工智能官)率先将深度学习应用到了语音识别领域,并取得了显著的性能提升。这让同样在微软亚研的汤教授嗅到了在视觉领域掀起深度学习革命的机会。

然而,转型并不容易。当时的学术界对于深度学习抱有极大的怀疑态度。神经网络早在 80 年代就出现了,之所以多年来不受重用是因为其在性能上并没有优势可言,且神经网络的黑箱属性让研究员难以理解网络的学习和决策过程。

此外,将过去的工作推翻全面接受深度学习,花费大量的资金购买 GPU 建立并行算力集群,并决定完全自主研发深度学习平台,对汤教授来说这是需要承担风险的。许多后辈的学者都评价汤教授是「一位具有前瞻性的学者,他当时在深度学习上的探索为之后的许多工作都奠定了基础。」

巨大的投入很快取得了回报。2011—2013 年间,在计算机视觉领域两大顶级会议 ICCV 和 CVPR 上,汤教授组一共发表了 14 篇深度学习论文,占据全世界在这两个会议上深度学习论文总数(29 篇)的近一半。

到了 2014 年 6 月,汤教授带领港中大多媒体实验室发表了 DeepID 系列算法,实现人脸识别准确率达 98.52%,超越 Facebook,在全球首次突破人眼识别能力。该论文也被 CVPR 2014 所收录。

虽然这些成绩还远远不够,但学术界看到了人脸识别在商用上的可能性。

CVPR 也在 2014 和 2015 年开始全面接受深度学习。在 CVPR 2016,据不完全统计,将近 60% 的论文都和深度学习相关,口头报告更是接近 100% 来自深度学习

当时在港中大读博士的石建萍,见识到了深度学习和以往算法的不同。」深度学习确实把很多东西做成了,以前可能我们流行了很多不同的技术方案,但是大家都还是在这个水平线上打转,没有一个特别大的一个突破,但是深度学习直接很多问题的一个准确率一下抬高了一个档次。」

嗅到了商用机会的汤教授,带着昔日弟子王晓刚和一批港中大实验室的班底,在 2014 年年末创立了商汤科技。2015 年夏天,石建萍博士学位毕业,追随她的「师兄师姐们」进入了商汤科技研究院。她的大师兄,也就是如今商汤科技的 CEO 徐立。

学术到工业的一脉相承

斯坦福大学教授、Deeplearning.ai 的创始人吴恩达曾经说过,如今 99% 的人工智能应用的背后是由监督学习所驱动。易于标注的二维图像数据、算力的提升和深度学习算法的演进,也让视觉领域在过去几年首先得益。

从你睁开眼的那刻起,计算机视觉就开始了它一天的工作:从识别你的头像解锁手机,到登陆你的银行账号;交通灯上的摄像头紧盯着乱闯马路的行人并把他们的头像放大在街头的显示 屏上;进入办公大楼不用再出示工作证,而是直接看向门口的摄像头进行身份验证……

深度学习带给了视觉领域大规模商用的潜能,也让 CVPR 出现了一番新的景象。

过去,视觉领域的问题无法落地到实际的应用场景里,研究大多局限在实验室。可如今,视觉领域与实践紧密结合,产生出了新的问题,工业界需要利用研究来推动自身的商业边界,也就顺其自然地向 CVPR 这样的国际会议输出研究结果。

最近几年,贡献最为明显的要属中国的 A.I. 公司,比如商汤。继 CVPR 2017 入选了 23 篇论文后,今年商汤又贡献了 44 篇(这其中包括了商汤科技、香港中文大学 - 商汤科技联合实验室以及其他商汤科技联合实验室),其中 3 篇是 oral(今年 CVPR oral 录取率是 1.88%),内容覆盖了十几个课题,包括大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。

此外,腾讯 AI Lab 有 21 篇论文入选,阿里巴巴 18 篇,腾讯优图 10 篇,旷视科技 8 篇。

石建萍觉得,商汤内部其实没有鼓励大家写论文,毕竟作为一家商业公司还是尽可能多的去做实际产品项目相关的一些东西。论文数量多的主要原因是因为氛围在这里。

「越来越多的同学进入商汤或者港中大商汤联合实验室以后,他旁边就有同学在做类似的事情,也更容易入手。在实际的产品过程中,我们有很多的想法出来,这时候就可以把一些实验提交给学生去做,他们也能够快速地提高技能。」

从 2009 年港中大多媒体实验室的获得最佳论文,到 2018 年商汤科技的 44 篇论文入选,这是一脉相承的结果。

「资源的投入,新问题的产生,肯定对这个领域的发展是有很大的一个正面驱动的这种作用的,」林达华说。

「当然它也会带来一些问题,整个领域的研究比起十年前显得更加功利化,大家都会追求一些要马上能落地,马上能见效的问题,反而对于根本性的一些基础问题得到的重视程度就相对的下降。包括其实近几年的这些顶尖的这些会议都有这方面的趋势。」

「总想有一年来赞助 CVPR」

参加完几次 CVPR,石建萍早已没有当初的那股兴奋劲儿了,但她依然有新的追求。

「以前和师兄师姐聊天的时候,他们都说自己有个梦想:参加了这么多年 CVPR,总想有一年过来赞助下。」

2015 年以前,即便是公司常年赞助 CVPR,也不过是在 poster 外围搭上个小展台。而且,这么多年以来,CVPR 的赞助名单上永远是那几家美国公司:谷歌、微软、亚马逊的 A9、IBM……

在 2015 年的 CVPR 上,一家叫做知图科技的 A.I. 公司买下了那一年的 Platinum Sponsor,并让该公司的品牌直接印在了每个参会者的入场名牌(badge)上,这家公司的联合创始人,便是今天自动驾驶公司图森科技的 CTO 侯晓迪。

赞助 CVPR 有着工业界的考量,这背后反映的是计算机视觉在工业界的迅速升温和对人才的渴求。仅仅在中国,2011 年到 2015 年成立的人脸识别公司就超过 30 家,2016 年达到 70 多家。其中,既有商汤科技为代表的 AI 企业,其后还包括旷视、依图、云从、驭势、格灵深瞳、码隆科技等等;BAT 也都在 A.I. 和计算机视觉领域有了实验室:阿里巴巴成立 iDST,腾讯成立优图,百度成立人工智能实验室。

根据 IDC 在今年 5 月发布的《2018 年中国计算机视觉应用市场研究(上)》报告,截至 2017 年 12 月底,中国计算机视觉应用市场规模达 15.45 亿元人民币,同比 2016 年增长 184.0%。其中,政府、金融、互联网是计算机视觉技术支出规模最大的 3 个行业;政府行业中平安城市、金融行业中人脸身份验证是技术支出规模最大的 2 个场景。

在 A.I. 人才稀缺的年代,像 CVPR 这样的大会就好比是一场大型的招聘会。这些来自高校的学者或是工业界的能人,未来都有可能成为厂商们的核心研究员。

同样在 2015 年,刚刚成立的商汤科技也成为了 CVPR 最高级别的赞助商。对石建萍的那些在商汤的师兄师姐们而言,赞助 CVPR 除了品牌宣传外,也算是了却了心愿。之后,商汤每年都出现在了赞助名单上。

时间来到 2016 年,CVPR 迎来了历史上首次展览会(expo)。那一年就有近 100 家公司参加,到了今年,厂商数量超过了 115 家,也给委员会带来了 200 万美元的赞助收入。

在拉斯维加斯的凯撒宫举办的 CVPR 2016 吸引了 3,500 人,在当时达到了历史新高。展览会在凯撒宫的 Octavius Ballroom 举办,聚集了将近 100 家公司。Platinum Sponsor 的展台达 20*20ft。和工业界展会雷同,公司们搭设屏幕展示 demo 或者技术产品。

在那一年的 Sponsor 名单上,除了商汤我们还看到了更多中国面孔:图森科技、大疆、百度、滴滴……这几家公司也都成为了近年来 CVPR 的熟客。

在那会儿,商汤的展台布置还比较简单:两边各摆上一张海报,中间摆着三台屏幕展示 demo,后面摆着几张桌子。

来到 2018 年,商汤的 CVPR 展台除了一如既往的红色背景外,摆设装潢已经完全不同了:展台的四周由四面展示墙包围,正反面各搭设一个屏幕,用来展示一种商汤的技术产品。这也难怪,如今商汤科技的布局横跨十几个领域,从人脸识别系统 SensePortrait、到增强现实感引擎与平台 SenseAR、再到车内驾驶员监控系统 SenseDrive,要展示的 demo 实在太多。

商汤科技在 CVPR 2018 的展台。

这些过去几年曾出现在某 CVPR 上的论文,如今以 demo 甚至是产品的形式在 CVPR 上重现,这是计算机视觉学者的一种幸运。

写在最后:

「好想去感受一次(CVPR)。」这是许多年纪轻轻、还未经历过 CVPR 的计算机视觉系同学的心声。

林达华还记得他第一年参加 CVPR,那还是 2005 年了,也是中了一篇 oral。「我准备了两三周,反复地在老师面前说。那个时候 oral 时间也比较长,要将近 20 分钟。」

「学生时代的话,其实每一次来开会都怀着一个比较好奇的一个心情,现在也大不一样了。」

石建萍也有同感。2011 年来的时候,她还是一个学生,对什么都好奇。今年她带着几个商汤实习生过来,有些人也是第一次过来,瞧着和当年的自己特别像。

产业CVPR 2018商汤科技计算机视觉
2
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

Alex网络技术
AlexNet

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

增强现实技术
Augmented reality

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

人脸识别技术
Facial recognition

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

模式识别技术
Pattern Recognition

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

数据挖掘技术
Data mining

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

旷视机构
Face++

北京旷视科技有限公司是以人工智能技术为核心的行业物联解决方案提供商,致力于为全球行业用户提供领先的人工智能算法和解决方案,构建城市级智能物联网系统。旷视科技研发的人脸识别技术,图像识别技术,智能视频云产品,智能传感器产品,智能机器人产品已经广泛应用于金融、手机、安防、物流、零售等领域,核心客户不仅包含阿里巴巴、蚂蚁金服、华为、联想等行业级头部企业,同时服务于国家公安部、国家税务总局、中信银行、招商银行、华润集团等政府部门和央国企集团。