Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Derek Hoiem作者路 杜伟编译

计算机视觉不是智能,只是记忆:CVPR 2019程序主席开炮

计算机视觉顶会 CVPR 2019 刚刚落下帷幕,近日 CVPR 2019 程序主席 Derek Hoiem 发表了一篇文章,认为计算机视觉正处于黄金时代,但它依靠的只是记忆,并非真正的智能。

随着人工智能的火热,近年来 AI 学术会议正受到人们越来越多的关注。CVPR 作为首屈一指的年度计算机视觉盛会,在机器学习领域享有盛名。该会议已于当地时间 6 月 16 日-20 日在美国加州长滩举行。据统计,CVPR 2019 共收到来自全球 14,104 位作者提交的 5160 篇论文(比 CVPR 2018 增加 56%),最终接收了 1294 篇,接收率约为 25%。CVPR 2019 共有 9227 人注册参会,突破历届记录。

CVPR 2019 程序主席、伊利诺伊大学香槟分校(UIUC)计算机科学副教授教授 Derek Hoiem 认为计算机视觉正处于黄金时代,但他也认为计算机视觉目前仍依靠记忆,大量方法不具备泛化性。

让我们看看他是怎么说的:

对于计算机视觉研究者而言,这是令人振奋但也压力倍增的时代。上周二,本人有幸在 CVPR 2019 大会上向 9,277 位参与者致开幕词。作为 CVPR 2019 四位程序委员会主席之一,本人主要负责管理论文评审流程(涉及 132 位领域主席、2887 位审稿人,以及提交 5160 份论文的 14104 名作者),并组织 1296 场 poster 论文的展示和 288 场演讲。这是历史上规模最大的计算机视觉会议,但四个月后会召开另一场盛会。

研究成果日新月异——谁又能跟上研究步伐呢?

CVPR 各年度论文提交数量(蓝色)和接收数量(绿色)。

计算机视觉不再只是一种学术追求。数十亿美元正投入到智能摄像机、自动驾驶等应用中。大多数教授至少花费一半的时间投身于工业,甚至刚毕业的博士生都可以拿到六位数的薪水。但这是泡沫吗?我们又如何区分适用于商业化的成熟突破和炒起来的概念验证呢?

首先,让我们简单回顾一下计算机视觉的发展历程:

  • 1963 年:Robert 的经典「积木世界」(Blocks World)论文利用精心设计的特征和规则,构建图像的 3D 目标。

  • 1981 年:Lucas 和 Kanade 在仅仅 6 页纸上,提出了用于运动跟踪和立体视觉的有效算法,之后几何视觉和图像处理领域出现大量进展。

  • 1996 年:Rowley、Baluja 和 Kanade 介绍了首个现代目标检测方法,这是一个训练用于检测人脸的神经网络。数字图像激增,数据取代了规则。

  • 2012 年:借助于数以百万计的标注图像和 GPU 算力,Krizhevsky、Sutskever 和 Hinton 证明了深度学习的强大效能,将同类方法的误差降低了一半。数据取代了手工制作的特征。

  • 2019 年:人脸识别、人体跟踪和常见物体检测实现了魔法般的效果。基于单个图像的深度预测看起来棒极了。但只有新手才会试图用不到 100,000 张标注图像来解决问题。数据标注行业诞生了。

那么,这就该提到计算机视觉领域的公开秘密了:计算机视觉只是记忆,而不是智能。

我们来看一个单视角深度预测的例子。2005 年,我提出了首个基于户外图像自动创建 3D 模型的方法。该方法的关键是通过标注像素、利用透视几何规则构建简单的场景几何模型,以学习「识别」图像的几何。该方法在 30% 的情况下是有效的。

单视角 3D 重建的一种早期方法:少量数据、手动制作的特征,以及一些数学知识。

单视角 3D 重建现在已经成为热门话题,仅 CVPR 2019 就收到了大约 35 篇相关论文。一些方法能够基于全景图像生成场景布局,基于图像生成目标网格,基于单视角生成深度图。

但是,就像我和 UCI 的研究者发表在 CVPR 2018 的论文《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》以及德国弗莱堡大学研究者发表在 CVPR 2019 的论文《What Do Single-view 3D Reconstruction Networks Learn?》所指出的那样,很多看似能解释图像几何的方法实际上只是在学习过程中记住了图像的几何信息,并通过检索与输入类似的样本来执行预测。预测得到的 3D 模型看似很好,但这些方法无法泛化到新的形状或场景。

那么,我们来考虑 3D 重建的两个重要问题:

  1. 图像深度。拍一张照片然后发到办公室,就可以做 3D 测量和 QA/QC,岂不妙哉?再也用不着昂贵的激光扫描仪和复杂的摄影测量学了。梦境很美,但是现在请睁开你的眼睛。Matterport 公司最近发布了一款基于 360 度全景图像进行深度预测的工具,这是一项卓越的数据收集和机器学习壮举。相关的深度预测效果很好,边也在正确的位置。但是它需要将一台 Ricoh Theta 全景相机放置在高度已知的三脚架上,由于相机参数和姿势都是未知的,因此这引入了一些变化因素。而且它在使用时仍然不够准确,编码器-解码器策略是一种记忆形式,因此在未来相当长的时间内,基于高度可变的构建场景执行预测很可能出现错误。现在,3D 最好还是留给无人机、视频捕捉和扫描仪吧。我对将单视角识别和分割的深度方法与可生成准确几何的多视角方法结合起来的潜力很感兴趣。

  2. 自动进度监控。Reconstruct 公司将点云和图像与 BIM 对齐,以更便捷地进行自动对比、规划和进度评估。这里存在的巨大挑战是构建元素和任务多种多样,观测结果不完整,需要同时评估几何和材料属性,以及如何获取标注数据。一些人声称可以做到自动进度监控,但是缺乏数据和专业知识,我认为这些言论不适用于广泛的应用。但是,语义分割领域的近期进展,以及如果有合适的数据,未来一两年自动进度监控或许可以实现,至少可以用于粗略评估正在进行的工作。

总之,如果有人称其最新解决了一个关于识别或预测的难题,请先问自己一个问题:他们有足够的数据,支持其方法记住所有答案吗?

要做到这一点,他们需要 1)具备海量数据;2)在数据标注上花费大量金钱(数百万),或者拥有自动标注方法;3)预测问题足够简单,且你的领域足够有限可以被他们的数据和标签覆盖。

几十亿美元的图像标注行业的存在是有理由的,而且截至目前,数据没有替代品


原文链接:https://medium.com/reconstruct-inc/the-golden-age-of-computer-vision-338da3e471d1

理论计算机视觉CVPR 2019CVPR数据
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~