CVPR 2018第一天:精彩的Workshop与被中国团队进击的挑战赛

美国时间 6 月 18 日,为期五天的计算机视觉(CV)三大顶级会议之一的 CVPR 2018 在美国犹他州首府城市盐湖城(Salt Lake City)拉开序幕。虽然不是大会的第一个正式日,但当日的 26 个研讨会(Workshop)以及 11 个挑战赛也足够让现场的数千名参会者饱足眼福。


机器之心现场记者挑选并总结了几个值得关注的研讨会内容,于第一时间和读者分享。

前伯克利 CS 系主任 Jitendra Malik:研究 SLAM 需要结合几何和语义

在今年的 CVPR 上,首届 SLAM(即时定位与地图构建) 与深度学习的国际研讨会受到了极大的关注,这也得益于 SLAM 技术在自主机器人自动驾驶领域中日益重要的地位。

第一场演讲的主讲人是计算机视觉(CV)领域的宗师级大牛、加州大学伯克利分校前计算机科学系主任 Jitendra Malik。去年年末,Malik 加入了 Facebook 的人工智能研究院(FAIR)。

Malik 首先简述了过去几十年在目标识别、定位和 3D 重建的研究发展进程——从以 DPM(Deformable Parts Model) 为代表的传统算法开始,随后介绍了 2015 年前后开始流行的图像分割重要算法 Fast R-CNN,以及其进一步衍生出的 Mask R-CNN,最后到目前最新的有关 3D 物体形状的研究。

随后,Malik 推荐介绍了三篇他所参与的、分别被 NIPS 2017 以及近两年的 CVPR 所接收的论文,都是有关基于二维图像重建三维结构:

  • Factoring Shape, Pose, and Layout from the 2D Image of a 3D Scene,本文的目的是获取场景的单个 2D 图像,并根据一组小的因素恢复 3D 结构:一个表示封闭表面的布局以及一组以形状和姿态表示的对象。论文提出了一种基于卷积神经网络的方法来预测这种表示,并在室内场景的大数据集上对其进行基准测试。

  • Learning Category-Specific Mesh Reconstruction from Image Collections:本文提出了一个学习框架,用于从单个图像中重建真实世界物体的三个方面:3D 形状、Camera 和纹理(Texture)。该形状被表示为对象类别的可变形 3D 网格模型。该论文允许利用注释图像集合进行训练,而不依赖于地面真实 3D 或多视图监督。

  • Learning a Multi-View Stereo Machine:本文提出了一个多视点立体视觉学习系统。并采用了一种端到端的学习系统,使得比经典方法所需少得多的图像 (甚至单个图像) 重建以及完成不可见表面成为可能。

最后,Malik 提到了在 SLAM 领域一些新进展。在他看来,传统的绘图和规划方法十分低效,因为它需要重建整个区域内的结构,这并不是人类所采用的方法。同时,传统的 SLAM 技术只关注几何结构(geometry)的注释却忽视了语义(semantics),比如人类在看到一个带着「出口」的门时,他自然而然地就会理解为「从这儿走可以出去」,但机器没有这个概念。

「研究 SLAM 需要从语义和几何结构两个角度同时出发,」Malik 说道。随后他介绍了斯坦福大学研究的数据集——Stanford Large-Scale 3D Indoor Spaces Dataset (S3DIS),出自CVPR 2016年的一篇论文。该论文提出了一种分层方法对整个建筑物的三维点云进行语义分析。论文强调,室内空间结构元素的识别本质上是一个检测问题,而不是常用的分割。论文作者们在S3DIS这个数据集上验证了他们的方法,该数据集覆盖面积超过6,000平方米的建筑,并且涵盖了超过2.15亿个点。

Malik & R-CNN 奠基人 Ross Girshick:视频问答系统需要更好的数据集

依旧是 Malik,他在主题为「视觉问答 (Visual Question Anwersing,简称 VQA) 和对话系统」的研讨会上强调了视觉问答系统对目前人工智能研究的重要性,以及它目前存在的挑战。

VQA 是目前视觉和语言的一个重要的交叉学科领域。系统根据图片上的信息,回答来自提问者的任何问题。在此基础上,视觉对话系统(在去年的 CVPR 上被提出)则要求机器可以回答后续问题,比如「轮椅中有多少人?」「他们的性别是什么?」

为什么语言对于视觉理解(visual understanding)这么重要?一篇题为「语言有助于分类」的研究论文表明,对婴儿来说,语言在获取对象类概念的过程中发挥着非常重要的作用,文字可以作为一种本质占位符,它能帮助婴儿更快地建立对不同物件的认识和表示。

但是,Malik 认为解决 VQA 很难,远比物体识别困难的多。系统可以通过物体识别或者获取图片上的一些基本信息,也有不少此类的标注数据集,但是没有数据集是能够标注图片中的人类行为、目标、动作和事件等元素,而这些元素恰恰是视觉理解的关键。

另一位值得一提的演讲嘉宾是 FAIR 的高级研究员、同样也是提出 R-CNN 和 Fast R-CNN 的学术大牛 Ross Girshick。他在演讲中提出了目前在 VQA 存在的问题:答案矛盾。

举一个例子:CloudCV: Visual Question Answering (VQA) 是一个云端的视觉问答系统,给出一张图,用户可以随意提出问题,系统会给出不同答案的准确率。当一些精明的用户提出不同的问题来「调戏」这个系统时,他们发现这个系统有时会对截然不同的问题作出相同的答案。

之心记者一脸懵逼

一般的视觉问答数据集里都含有这么三个元素——一张图片,对应的问题和对应的答案,即为(I, Q, A)。Girshick 认为,测量一个 VQA 的准确性不应该是检查孤立的(I, Q, A),而是应该考量结构化的数据集合,即在同一张图片下,每一个问题 Q 都意味着另一个答案 A 的值。

「建立这样的数据集毫无疑问是相当的困难的,但我们需要数据集对算法和模型的要求更高一些,」Girshick 说。

一个小插曲:Malik 今天讲了一个段子:「一位警察驾着警车沿街巡逻。他发现路灯下有黑影晃动,看起来像是个醉鬼,于是警察上前盘问:『请问你在这儿干嘛?』『我在找钥匙,刚刚开门时不小心掉了。』『你把钥匙掉在路灯下了?』『不是,钥匙掉在门口旁的树丛里!』『那你为什么在路灯下面找呢?』『因为这里光线比较亮啊!』」

虽是老梗,Malik 却认为这个故事和如今的科学研究颇为相似。近年来大量标注数据、强大的算力以及大规模模拟环境给当前的监督学习提供了很好的研究环境,这就如同那个路灯下,快速地提升研究成果,但这或许不是通往强人工智能的正确道路。

吴恩达高徒 Honglak Lee: 视频预测和无监督学习

在 CV 领域,深度学习在视频分析领域,包括动作识别和检测、运动分析和跟踪、浅层架构等问题上,还存在许多挑战。在今年的 CVPR 上,主题为「视频理解的大胆新理念」的研讨会将来自视频分析领域的研究人员聚集在一起,讨论各种挑战、评估指标、以及基准。

研讨会邀请到了密歇根教授、谷歌大脑研究员 Honglak Lee,他也是吴恩达在斯坦福大学的高徒。

Lee 带来的是有关视频(动作)预测和无监督学习方面的研究。

Lee 介绍说,目前研究视频分析的一个关键挑战是将产生图像的许多变异因素分开,场景方面包括姿势、形状、照明,视频方面则是后景和前景对象的区分,以及画面中不同物体的交互。他的研究方向是在视频上进行复杂的推理,比如预测未来并对其采取行动。

Lee 主要介绍了他最新的一篇被 ICML 18 接收的论文:Hierarchical Long-term Video Prediction without Supervision。该论文旨在提供一种用于解决长期视频预测的训练方法,无需高级监督就可以训练编码器、预测器和解码器。通过在特征空间中使用对抗性损失来训练预测变量来做进一步改进。Lee 研究的方法可以预测视频未来约 20 秒,并在 Human 3.6M 数据集上提供更好的结果

自动驾驶座谈会:挑战,机遇,安全

本届 CVPR 的自动驾驶研讨会算得上是阵容强大:Tesla 的人工智能主管 Andrej Karpathy、Uber 自动驾驶主管、也是多伦多大学 CV 领域的权威 Raquel Urtasun、伯克利自动驾驶产业联盟的联合创始人 Kurt Keutzer 等。

尽管他们各自的演讲并不甚出彩,主要就是给自家公司「打广告」,但在当天最后的座谈会上,受邀的八位嘉宾(Karpathy 除外)之间却迸发出了难得一见的精彩辩论。

这也难怪,自动驾驶领域和 CVPR 绝大多数的研讨会主题都不同。视觉理解也好,SLAM 也罢,它们并不太牵涉到生与死的问题。但在自动驾驶领域,研究者们的一举一动和数以亿计的人们的身家性命息息相关,这让话题内容的高度和意义往往被拔高。同时,各家对自动驾驶的理解也都不太一样,各执己见下所引发的争辩反倒是给底下的观众提供了更多的思考。

长达一个小时的座谈会上,机器之心记者总结了其中三个比较重要的议题:

什么是自动驾驶最大的挑战?

Lyft 的工程副总裁 Luc Vincent 认为计算(compute)还没有准备好,同时社会对自动驾驶的接纳程度还不够高。

伯克利的 Keutzer 教授认为是感知perception), 这个观点得到了 Urtasun 的支持,不过两人在随后的问题上产生了意见分歧:Urtasun 认为解决了感知规划(planning)也就不成问题了。Keutzer 却认为,这两者是两回事儿,即使感知的问题解决了,还是无法解决在特定场景上出现的规划上的困境。

同样是伯克利的博士后研究员 Bo Li 认为自动驾驶领域依然存在许多未收集到的角落场景(corner case),这会引发一些安全隐患。

如果你是一名 CV 的博士生想要做自动驾驶的研究,你应该做什么?

「做地图!」Urtasun 抢先说道,她认为目前在高精度地图上,业内没有衡量的标准以及可靠的解决方案,技术上难度也比较大。

结果,Urtasun 的回答马上遭到了几位同行的驳斥。「千万不要做(地图)!」密歇根大学副教授、May Mobility 的 CEO Edwin Olson 赶紧抢过话来。「我们正在处于一个在自动驾驶领域中非常愚蠢的时间点——对地图有着过分的依赖。我认为地图的短板也非常明显,而且最终我们会慢慢地减少对地图的依赖。」

其他人也都表达了类似的观点:「算法上去了,你自然不那么需要地图。」「未来制作高精地图的技术也会越来越可靠,需要标记地图数据的人力也会逐步降低。」

未来将如何衡量不同自动驾驶车辆安全性?

这是一个让不少现场嘉宾卡壳的问题,业界似乎也没有一个统一的衡量标准。Olson 倒是提出了很有新意的观点:「车险」,从车险的高低或许能看出公司对安全性的信心到底有多少。

随后,Bo Li 提出,未来或许可以通过建模,将自动驾驶后台系统的代码输进去做基准评估。不过,加州自动驾驶公司 Nuro.ai 的高级工程师 Will Maddern 告诉机器之心记者,这个想法短期内还很难实现,他认为比较可行的方法是让不同的车辆在同一环境里跑来做一些比较。

挑战赛结果出炉:中国军团的进击

除了研讨会上的嘉宾演讲外,大会首日的另一大亮点则是挑战赛。据机器之心记者了解到,中国学者们在挑战赛上有着很出色的发挥,以下是目前获悉的比赛结果(不完全):

DeepGlobe 卫星图像理解挑战赛

DeepGlobe 卫星图像理解挑战由 Facebook、Uber、IEEE 下的 GRSS 机构等联合赞助。卫星图像是一个强大的信息来源,因为它包含更多结构化和统一的数据。虽然计算机视觉社区已经开发出许多日常图像数据集,但卫星图像最近才引起人们对地图和人口分析的关注。

因此,组织者提出了该项挑战赛,围绕三种不同的卫星图像理解任务进行构建,分别是道路提取、建筑检测,和土地覆盖分类。本次比赛创建和发布的数据集可作为未来卫星图像分析研究的参考基准。

最终,来自北京邮电大学的 Lichen Zhou 团队在道路提取任务上获得第一,而来自哈尔滨工业大学和 Chao Tian 团队则赢得了土地覆盖分类任务的第一名。

链接:http://deepglobe.org/workshop.html

Look Into Person (LIP) 挑战赛

Look Into Person(LIP)挑战赛由中山大学和卡内基梅隆大学联合举办。该挑战赛旨在提高计算机视觉在野外场景中的应用,比如人类解析和姿态估计问题。该挑战赛一共有 5 个 track,来自京东人工智能研究院的 Wu Liu 团队获得了其中单人和多人姿态估计任务的第一名。

链接:http://sysu-hcp.net/lip/pose_lb.php?type=2 

图像压缩挑战赛(CLIC)

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络深度学习等一些新的方式引入到图像压缩领域。

据大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。不久之前,比赛结果公布:在不同基准下,来自国内创业公司图鸭科技的团队 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上获得第一名,腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,位列第一。

比赛结果:http://www.compression.cc/results/

Moments in Time 视频行为理解挑战赛

Moment 是由 MIT-IBM Watson AI Lab 开发的研究项目。该项目致力于构建超大规模数据集来帮助 AI 系统识别和理解视频中的动作和事件。如今,该数据集已包含了一百万部标记的 3 秒视频,涉及人物、动物、物体或自然现象,捕捉了动态场景的要点。

此挑战赛分为 Full Track 和 Mini Track,比赛的前三名均为中国团队所得:

比赛结果:http://moments.csail.mit.edu/results2018.html 

在 Full Track 类别中,来自海康威视的 DEEP-HRI 获得了第一名,旷视科技第二,七牛云团队第三名。在 Mini Track 中,来自中山大学的 SYSU_isee 团队获得第一名,北航与台湾大学的团队分别是二三名。

在大会第一天,机器之心观察、记录到了以上内容,但这些并不能代表全部精彩内容。接下来几天,我们将会继续为大家报道 CVPR 2018 大会,读者中有参与大会的同学也可以为我们投稿,从而把更多精彩内容分享给大家。

产业CVPR 2018计算机视觉挑战赛
2
相关数据
强人工智能技术
Artificial General Intelligence

强人工智能或通用人工智能(Strong AI或者 Artificial General Intelligence)是具备与人类同等智慧、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一,同时也是科幻小说和未来学家所讨论的主要议题。相对的,弱人工智能(applied AI,narrow AI,weak AI)只处理特定的问题。弱人工智能不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能,发现这个具有领域的局限性,人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

图像压缩技术
Image compression

图像压缩是数据压缩技术在数字图像上的应用,目的是减少图像数据中的冗余信息,从而用更加高效的格式存储和传输数据。图像压缩可以是有损数据压缩也可以是无损数据压缩。

Mask R-CNN技术
Mask R-CNN

Mask R-CNN是一个概念上简单,灵活和通用的对象实例分割框架。 该方法能够高效地检测图像中的对象,同时为每个实例生成高质量的分割蒙版。 这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快,该分支与现有的用于边界框识别的分支并行。

问答系统技术
Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

规划技术
Planning

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

即时定位与地图构建技术
Simultaneous localization and mapping

在机器人映射和导航中,同时定位和映射 是构建或更新未知环境地图,同时地图中跟踪机器人在其内的位置。SLAM算法是针对有限可用资源量身定做的,因此不是最优解,而是在于操作合规性。 自行驾驶汽车,无人机,自主水下机器人,行星探测器,新兴家用机器人乃至人体内都采用了SLAM的方法。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

旷视机构
Face++

涉及领域
tony.peng
tony.peng

机器之心编辑

返回顶部