蓝天白云下,一辆白色的轿车飞驰在高速上。那么问题来了,高速上跑着的,是白云还是汽车?
对于我们人类来说,这个问题简直侮辱人的智商,但对于计算机呢?如果计算机没有辨认出来,那么自动驾驶会不会直接发生车祸?
计算机视觉要解决的就是诸如此类的问题:给计算机一双慧眼,为计算机和机器人开发出具有与人类水平相当的视觉能力,让它也能看清这繁华的滚滚红尘。人工智能的终极目标,就是让机器像人那样的思考、处理事情。
对于人类来说,大脑皮层70%的活动都在处理视觉信息,一旦没有视觉信息,整个人工智能就会变成一个空架子,那么打开计算机视觉这个通向人工智能的大门就至关重要,毕竟门都打不开,就更别提其他真实世界中的人工智能了。
而作为计算机视觉领域顶级学术会议之一的CVPR,其论文通常代表了计算机视觉领域的最新发展方向和水平,其备受关注也就在情理之中了。
昨日,第31届CVPR于美国时间6 月 18 日至 22 日在美国盐湖城召开。
争先恐后的中国面孔
与所有其它学术领域都不同,计算机科学使用会议而不是期刊作为发表研究成果的主要方式,特别是在机器学习、计算机视觉和人工智能领域,顶级会议才是王道。所以目前国外计算机界评价学术水平主要看在顶级学术会议上发表的论文。
当然,因为机器学习、计算机视觉和人工智能领域发展非常迅速,新的工作层出不穷,如果把论文投到期刊上,一两年后刊出时就有点out了。因此大部分最新的工作都首先发表在顶级会议上,这些顶级会议完全能反映“热门研究方向”、“最新方法”。
而且很多论文都会选择在顶级会议上首发,尤其是一些领域大牛,很多人都非常看重这些顶级的会议,很多人是80%的会议+20%的期刊。
商汤科技联合创始人、研究院院长王晓刚也在微软的活动中表示,在学术领域,对问题的探索很多时候并没有跟上应用的发展,也会和实际的应用导向有所差别,但是,大家通过发表论文、写论文,对整个领域有了全面的理解,等再进入到工业当中,处理各种问题就会游刃有余。
那么,我们还有什么理由不来顶会掺和一脚?
就今年的CVPR来说,从接收论文的作者署名和机构看,阿里、腾讯,以及计算机视觉“四小龙”为代表的中国团就特别积极,越来越多来自中国本土的学者/学生,以及中国企业的研究者,正在越来越多地登上计算机视觉全球顶会的舞台。
据统计,本届大会有超过 3300 篇的大会论文投稿,录取 979 篇(接受率约为 29%,其中包括 70 篇 Oral 和 224 篇 Spotlight 论文)。
其中,商汤科技论文44篇,腾讯AILab 21篇,阿里巴巴18篇,腾讯优图10篇,旷视7篇,相比谷歌的45篇和Facebook的 35篇也并不逊色太多。
阿里方面就派出了史上首次集结最全、最强的计算机视觉技术阵容参加视觉领域顶级学术会议,这其中包括大家熟知的达摩院等,将以会展、技术分享、学术晚宴、论文报告等方式展示在该领域的能力。
腾讯优图也拿出了自己的看家本领,就最受外媒关注的技术和应用场景:AI技术在处理非特定场景图片去模糊中的应用、通过Facelet-Bank进行快速肖像处理、恢复模糊图像的有效新算法等核心技术来吸引产业界的关注。
论文所提到的技术展示
以及上文提到的众多计算机视觉领域的中国创业公司等等。
不过,放心,CVPR有着较为严苛的录用标准,会议整体的录取率通常不超过30%,口头报告的论文比例更是不高于5%。CVPR的审稿一般是双盲的,也就是说会议的审稿与投稿方均不知道对方的信息。通常某一篇论文需要由三位审稿者进行审读。最后再由会议的领域主席(area chair)决定论文是否可被接收。
除了论文之外,更多的中国企业也出现在了CVPR2018的产业界赞助商名单之上,其中包括:百度、阿里巴巴、腾讯、京东、华为等布局人工智能的大公司,也包括旷视、商汤、依图、地平线、景驰科技以及 Momenta等创业公司。
越来越热的计算机视觉
近日,Gartner发布了其针对人工智能计算机视觉领域发展的研究报告,其在报告中指出“自61年前感知器被发明以来,计算机视觉几乎与人工智能技术的发展同步前行,如今,人工智能领域关键技术深度学习应用最为广泛的领域也非计算机视觉莫属。若要推动实际商业效益增长,如今应更多地关注人工智能计算机视觉技术的应用能力和竞争力。”
从国内人工智能企业来看,有高达42%的企业应用计算机视觉相关技术。从人工智能市场规模分布来看,计算机视觉也是排名第一,根据CAICT的统计,2017年我国人工智能市场规模中有37%是计算机视觉领域。
根据IDC市场追踪数据,截至2017年12月底,中国计算机视觉应用市场规模达15.45亿元人民币,同比2016年增长184.0%。其中,政府、金融、互联网是计算机视觉技术支出规模最大的3个行业;政府行业中平安城市、金融行业中人脸身份验证是技术支出规模最大的2个场景。
当前,计算机视觉赛道也是人工智能领域最为吸金的赛道之一。以计算机视觉“四小龙”为例,依图科技近期宣布完成2亿美元C+轮融资;商汤科技近期也宣布完成6.2亿美元C+轮融资;2017年10月旷视科技已宣布完成4.6亿美元C轮融资。
同样,在以处理图像数据为主的AI芯片赛道上,寒武纪今天正式宣布完成数亿美元的B轮融资,估值达25亿美元,地平线也在2017年10月完成近亿美元A轮融资。
IDC预计,到2022年,中国计算机视觉应用市场规模将达到146. 08亿元人民币。从2017-2022年5年复合增长率来看,计算机视觉在移动设备、自动驾驶汽车、智能家居以及行业自动化领域的应用将实现超过80%的增长。
以手机领域为例,2017年人脸识别技术在智能手机终端应用开始普及。iPhone X,华为、小米、OPPO、vivo等手机厂商都推出了带人脸识别功能的智能手机。艾媒咨询分析师认为,计算机视觉领域内人脸识别功能可应用场景广泛,商业化落地能力强,除了计算机视觉创业企业,互联网巨头和硬件巨头企业也纷纷关注布局人脸识别领域。
41.8%的受访网民表示未来愿意使用人脸识别技术进行手机及APP解锁,同时有41.4%的受访网民虽持观望态度,但愿意尝试。此外,47.4%的受访网民认为人脸识别将取代其他手机及APP解锁技术成为未来主流。
CVPR上的得奖者
当然,我们的话题还是要回到此次的CVPR2018。
历年通过的论文数
重点关注下最佳论文、最佳学生论文、经典论文的Longuest-Higgins奖
最佳论文题目:Taskonomy:Disentangling Task Transfer Learning
作者:斯坦福大学和加州大学伯克利分校的著名教授Jitendra Malik和Silvio Savarese。
一句话概述:本论文提出一种完全计算的方法来建模视觉任务的空间结构,可利用该结果来减少对标记数据的需求。
论文地址:https://arxiv.org/pdf/1804.08328.pdf
最佳学生论文题目:Total Capture:A 3D Deformation Model for Tracking Faces, Hands, and Bodies(完全捕获:跟踪脸部、手部和身体的3D变形模型)
作者:Hanbyul Joo,TomasSimon,Yaser Sheikh,均来自CMU
一句话概述:提出了一个统一的变形模型(deformation model),用于无标记地捕捉人体运动的多个尺度,包括面部表情、身体动作和手势。
Longuet-Higgins 奖论文题目:A discriminatively trained, multiscale, deformable part model
作者:Pedro.Felzenszwalb(芝加哥大学),David.McAllester(芝加哥丰田技术研究所),Deva.Ramanan(UC Irvine)
一句话概述:本文介绍了一种用于目标检测的判别训练的多尺度可变形部件模型。
该论文发表于2008 年CVPR ,根据谷歌学术搜素引擎,这篇文章的被引次数高达 2075 次。
当然,大家关心的明星奖项,“PAMI 年轻研究员奖”(PAMI Young Researcher Award),今年授予了德国蒂宾根大学的 Andreas Geiger 和Facebook人工智能研究所(FAIR)的何恺明。这个奖项重点授予那些博士毕业不超过 7 年并在计算机视觉方面有卓越研究贡献的的年轻研究人员。
毕竟,何恺明是之前CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)最佳论文奖以及最佳学生论文奖的得者,可谓是真正的大神级的人物了!
PS:三大计算机视觉顶会了解一下?
CVPR的全称是Internaltional Conference on Computer Vision and Pattern Recogintion,一年一度在美国本土举办,正如它的名字一样,这个会上除了视觉的文章,还会有不少模式识别的文章,当然两方面的结合自然也是重点。在本次的大会上,有3309 篇有效投稿,其中979 篇论文被接收。
ICCV的全称是International Comference on Computer Vision, 由美国电气和电子工程师学会(IEEE,Institute of Electrical & ElectronicEngineers)主办,通常是在北美、欧洲、亚洲的一些科研实力较强的国家举行,是公认的三个会议中级别最高的,两年举办一届。
ECCV的全称是Europeon Conference on Computer Vision,每两年开一次,仅限欧洲。作为欧洲的会议,一般比较看中理论,但近来也开始注重应用层面。