为什么我们都要关注CVPR2018?阿里腾讯都往里冲,四小龙获得巨额融资

蓝天白云下,一辆白色的轿车飞驰在高速上。那么问题来了,高速上跑着的,是白云还是汽车?

对于我们人类来说,这个问题简直侮辱人的智商,但对于计算机呢?如果计算机没有辨认出来,那么自动驾驶会不会直接发生车祸?

计算机视觉要解决的就是诸如此类的问题:给计算机一双慧眼,为计算机和机器人开发出具有与人类水平相当的视觉能力,让它也能看清这繁华的滚滚红尘。人工智能的终极目标,就是让机器像人那样的思考、处理事情。

对于人类来说,大脑皮层70%的活动都在处理视觉信息,一旦没有视觉信息,整个人工智能就会变成一个空架子,那么打开计算机视觉这个通向人工智能的大门就至关重要,毕竟门都打不开,就更别提其他真实世界中的人工智能了。

而作为计算机视觉领域顶级学术会议之一的CVPR,其论文通常代表了计算机视觉领域的最新发展方向和水平,其备受关注也就在情理之中了。

昨日,第31届CVPR于美国时间6 月 18 日至 22 日在美国盐湖城召开。

争先恐后的中国面孔

与所有其它学术领域都不同,计算机科学使用会议而不是期刊作为发表研究成果的主要方式,特别是在机器学习计算机视觉和人工智能领域,顶级会议才是王道。所以目前国外计算机界评价学术水平主要看在顶级学术会议上发表的论文。

当然,因为机器学习计算机视觉和人工智能领域发展非常迅速,新的工作层出不穷,如果把论文投到期刊上,一两年后刊出时就有点out了。因此大部分最新的工作都首先发表在顶级会议上,这些顶级会议完全能反映“热门研究方向”、“最新方法”。

而且很多论文都会选择在顶级会议上首发,尤其是一些领域大牛,很多人都非常看重这些顶级的会议,很多人是80%的会议+20%的期刊。

商汤科技联合创始人、研究院院长王晓刚也在微软的活动中表示,在学术领域,对问题的探索很多时候并没有跟上应用的发展,也会和实际的应用导向有所差别,但是,大家通过发表论文、写论文,对整个领域有了全面的理解,等再进入到工业当中,处理各种问题就会游刃有余。

那么,我们还有什么理由不来顶会掺和一脚?

就今年的CVPR来说,从接收论文的作者署名和机构看,阿里、腾讯,以及计算机视觉“四小龙”为代表的中国团就特别积极,越来越多来自中国本土的学者/学生,以及中国企业的研究者,正在越来越多地登上计算机视觉全球顶会的舞台。

据统计,本届大会有超过 3300 篇的大会论文投稿,录取 979 篇(接受率约为 29%,其中包括 70 篇 Oral 和 224 篇 Spotlight 论文)。

其中,商汤科技论文44篇,腾讯AILab 21篇,阿里巴巴18篇,腾讯优图10篇,旷视7篇,相比谷歌的45篇和Facebook的 35篇也并不逊色太多。

阿里方面就派出了史上首次集结最全、最强的计算机视觉技术阵容参加视觉领域顶级学术会议,这其中包括大家熟知的达摩院等,将以会展、技术分享、学术晚宴、论文报告等方式展示在该领域的能力。

腾讯优图也拿出了自己的看家本领,就最受外媒关注的技术和应用场景:AI技术在处理非特定场景图片去模糊中的应用、通过Facelet-Bank进行快速肖像处理、恢复模糊图像的有效新算法等核心技术来吸引产业界的关注。

论文所提到的技术展示

以及上文提到的众多计算机视觉领域的中国创业公司等等。

不过,放心,CVPR有着较为严苛的录用标准,会议整体的录取率通常不超过30%,口头报告的论文比例更是不高于5%。CVPR的审稿一般是双盲的,也就是说会议的审稿与投稿方均不知道对方的信息。通常某一篇论文需要由三位审稿者进行审读。最后再由会议的领域主席(area chair)决定论文是否可被接收。

除了论文之外,更多的中国企业也出现在了CVPR2018的产业界赞助商名单之上,其中包括:百度、阿里巴巴、腾讯、京东、华为等布局人工智能的大公司,也包括旷视商汤、依图、地平线、景驰科技以及 Momenta等创业公司。 

越来越热的计算机视觉

近日,Gartner发布了其针对人工智能计算机视觉领域发展的研究报告,其在报告中指出“自61年前感知器被发明以来,计算机视觉几乎与人工智能技术的发展同步前行,如今,人工智能领域关键技术深度学习应用最为广泛的领域也非计算机视觉莫属。若要推动实际商业效益增长,如今应更多地关注人工智能计算机视觉技术的应用能力和竞争力。”

从国内人工智能企业来看,有高达42%的企业应用计算机视觉相关技术。从人工智能市场规模分布来看,计算机视觉也是排名第一,根据CAICT的统计,2017年我国人工智能市场规模中有37%是计算机视觉领域。

根据IDC市场追踪数据,截至2017年12月底,中国计算机视觉应用市场规模达15.45亿元人民币,同比2016年增长184.0%。其中,政府、金融、互联网是计算机视觉技术支出规模最大的3个行业;政府行业中平安城市、金融行业中人脸身份验证是技术支出规模最大的2个场景。

当前,计算机视觉赛道也是人工智能领域最为吸金的赛道之一。以计算机视觉“四小龙”为例,依图科技近期宣布完成2亿美元C+轮融资;商汤科技近期也宣布完成6.2亿美元C+轮融资;2017年10月旷视科技已宣布完成4.6亿美元C轮融资。

同样,在以处理图像数据为主的AI芯片赛道上,寒武纪今天正式宣布完成数亿美元的B轮融资,估值达25亿美元,地平线也在2017年10月完成近亿美元A轮融资。

IDC预计,到2022年,中国计算机视觉应用市场规模将达到146. 08亿元人民币。从2017-2022年5年复合增长率来看,计算机视觉在移动设备、自动驾驶汽车、智能家居以及行业自动化领域的应用将实现超过80%的增长。

以手机领域为例,2017年人脸识别技术在智能手机终端应用开始普及。iPhone X,华为、小米、OPPO、vivo等手机厂商都推出了带人脸识别功能的智能手机。艾媒咨询分析师认为,计算机视觉领域内人脸识别功能可应用场景广泛,商业化落地能力强,除了计算机视觉创业企业,互联网巨头和硬件巨头企业也纷纷关注布局人脸识别领域。

41.8%的受访网民表示未来愿意使用人脸识别技术进行手机及APP解锁,同时有41.4%的受访网民虽持观望态度,但愿意尝试。此外,47.4%的受访网民认为人脸识别将取代其他手机及APP解锁技术成为未来主流。

CVPR上的得奖者

当然,我们的话题还是要回到此次的CVPR2018。

历年通过的论文数

重点关注下最佳论文、最佳学生论文、经典论文的Longuest-Higgins奖

最佳论文题目:Taskonomy:Disentangling Task Transfer Learning

作者:斯坦福大学和加州大学伯克利分校的著名教授Jitendra Malik和Silvio Savarese。

一句话概述:本论文提出一种完全计算的方法来建模视觉任务的空间结构,可利用该结果来减少对标记数据的需求。

论文地址:https://arxiv.org/pdf/1804.08328.pdf

最佳学生论文题目:Total Capture:A 3D Deformation Model for Tracking Faces, Hands, and Bodies(完全捕获:跟踪脸部、手部和身体的3D变形模型)

作者:Hanbyul Joo,TomasSimon,Yaser Sheikh,均来自CMU

一句话概述:提出了一个统一的变形模型(deformation model),用于无标记地捕捉人体运动的多个尺度,包括面部表情、身体动作和手势。

Longuet-Higgins 奖论文题目:A discriminatively trained, multiscale, deformable part model

作者:Pedro.Felzenszwalb(芝加哥大学),David.McAllester(芝加哥丰田技术研究所),Deva.Ramanan(UC Irvine)

一句话概述:本文介绍了一种用于目标检测的判别训练的多尺度可变形部件模型。

该论文发表于2008 年CVPR ,根据谷歌学术搜素引擎,这篇文章的被引次数高达 2075 次。

当然,大家关心的明星奖项,“PAMI 年轻研究员奖”(PAMI Young Researcher Award),今年授予了德国蒂宾根大学的 Andreas Geiger 和Facebook人工智能研究所(FAIR)的何恺明。这个奖项重点授予那些博士毕业不超过 7 年并在计算机视觉方面有卓越研究贡献的的年轻研究人员。

毕竟,何恺明是之前CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)最佳论文奖以及最佳学生论文奖的得者,可谓是真正的大神级的人物了!

PS:三大计算机视觉顶会了解一下?

CVPR的全称是Internaltional Conference on Computer Vision and Pattern Recogintion,一年一度在美国本土举办,正如它的名字一样,这个会上除了视觉的文章,还会有不少模式识别的文章,当然两方面的结合自然也是重点。在本次的大会上,有3309 篇有效投稿,其中979 篇论文被接收。

ICCV的全称是International Comference on Computer Vision, 由美国电气和电子工程师学会(IEEE,Institute of Electrical & ElectronicEngineers)主办,通常是在北美、欧洲、亚洲的一些科研实力较强的国家举行,是公认的三个会议中级别最高的,两年举办一届。

ECCV的全称是Europeon Conference on Computer Vision,每两年开一次,仅限欧洲。作为欧洲的会议,一般比较看中理论,但近来也开始注重应用层面。

产业CVPR 2018
2
相关数据
计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

人脸识别技术
Facial recognition

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知器技术
perceptron

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

模式识别技术
Pattern Recognition

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

Andreas Geiger人物
Andreas Geiger

旷视机构
Face++

涉及领域
声学在线
声学在线

声学在线是国内领先声学与人工智能领域前沿科技媒体与资讯服务平台,关注国内外声学与人工智能技术创新与产业前沿资讯,致力于挖掘声学产业链上下游的动态发展,深度解读新兴技术与市场发展趋势,独立、客观、专业地为业界提供具有深度价值的内容与产业服务。

声学在线
推荐文章
返回顶部