Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

CVPR一次中66篇,大装置一天训练完GPT-3,商汤准备迎战未来

商汤的「既要…… 又要…… 还要……」

6 月 19 日,CVPR 2021 在线上拉开帷幕。作为计算机视觉三大顶会之一,本届 CVPR 大会一共接收了 7039 篇有效投稿,最终有1366 篇被接收为poster,295篇被接收为oral,接收率大概为 23.6%


在前段时间公布的最佳论文候选名单中,我们发现,华人一作论文占据了半壁江山(16/32)。当然,这一现象并非偶然。其实,早在九年前,华人学者就已经凭借其创新精神在国际 CV 顶会上大放异彩,比如香港中文大学的汤晓鸥团队:2012 年 CVPR 大会仅有的两篇深度学习文章均出自其实验室。2011—2013 年间,该实验室又在 ICCV 和 CVPR 上发表了 14 篇深度学习论文,占据全世界在这两个会议上深度学习论文总数(29 篇)的近一半。

2014 年,汤晓鸥等人创办了商汤科技,这种创新精神也被刻入商汤的基因并延续至今。

在今年的 CVPR 大会上,商汤共有 66 篇论文被接收,远高于业界平均水平。此外,在同期举办的挑战赛中,商汤 - 南洋理工联合实验室(S-Lab)团队一举斩获 CVPR 2021 NTIRE 视频理解挑战赛三项冠军,包括视频超分辨率、重度压缩视频质量增强(固定量化参数,保真度)和重度压缩视频质量增强(固定比特率,保真度)赛道。商汤研究院团队则摘得 CVPR 2021 ActivityNet 时序动作检测任务弱监督学习赛道冠军。

AI 领域发展到今天,如何保持创新活力、加快产业落地是所有企业面临的共同问题。在这一点上,商汤的态度是明确的「既要…… 又要…… 还要……」,即既要保持技术创新的领先,又要加快产业落地,同时还要建设面向整个生态、整个社区的 AI 基础设施,推动 AI 进入工业化发展阶段。

从今年的 CVPR 和商汤最近的一些动向中,我们可以看出这家公司为实现上述愿景所做的努力。在这篇文章中,我们就来聊聊这一话题。

技术创新不能落下

对于商汤今年在 CVPR 中取得的成绩,该公司联合创始人、香港中文大学 - 商汤科技联合实验室主任林达华评价说,「对商汤来说,AI 的研究和创新是刻在基因里的。从公司建立的第一天开始,甚至在建立之前,我们的创始团队就一直把 AI 的基础研究作为持续追求的理想。所以,尽管商汤的整个发展经历了很多阶段,我们也把 AI 落地到了越来越多的产业中去,但我们始终没有忘记,整个 AI 产业发展的最初原动力来自于技术的突破和创新。

商汤的这种理念在历年 AI 顶会中得到了很好的体现,今年的 CVPR 也不例外。从研究方向来看,该公司今年入选的论文分布在多个领域,包括长尾目标检测轨迹预测、3D 点云补全、3D 场景重建、激光雷达 3D 目标检测等,其中的 3D 点云补全、3D 场景重建等相关论文还被收录为 Oral 论文

3D 点云是 3D 场景和目标的一种直观表示。然而,由于遮挡等问题的存在,扫描得到的 3D 点云通常是不完整的。因此,利用不完整的点云预测目标的完整 3D 形状成为一个重要问题。但是,现有的点云补全方法倾向于生成全局形状骨架,缺乏局部细节。而且,它们大多会学习一个确定性的部分到整体的映射,忽视人造物体中的结构关系。

商汤的研究者认为,点云补全应从残缺点云中学习关系性结构属性来恢复可信且高质量的完整点云形状。为了实现这一点,他们在论文中提出了一个两阶段的网络:首先对残缺点云做概率重建以恢复一个粗略的完整点云,再结合残缺点云做关系性结构增强达到高质量的补全。实验显示,该方法显著提高了生成的完整点云质量。这份研究可以结合很多单目深度感知传感器(如激光雷达或深度相机)完成对未知形状部分的恢复和预估。预估出的完整形状可以有效辅助很多下游任务,如 3D 形状分类、姿态检测、避障和交互。


论文链接:https://arxiv.org/pdf/2104.10154.pdf

3D 场景重建是 3D 计算机视觉的一个核心任务。例如在增强现实(AR)应用中,为了在 AR 效果和周围的物理环境之间形成自然、沉浸式的互动,3D 重建需要非常精确、连贯,还要保持实时性。虽然使用 SOTA 视觉惯性 SLAM 系统可以精确跟踪摄像机运动,但由于重建质量低、计算要求高,基于图像的实时密集重建仍然是一个具有挑战性的问题。

在一篇CVPR最佳论文候选论文中,商汤的研究者提出了一种新的基于神经网络的单目实时场景 3D 重建系统——NeuralRecon。不同于以往基于深度图估计与融合的方法,NeuralRecon 直接基于图像特征预测用 TSDF 表示的局部 3D 表面,并创新地提出了一个联合 TSDF 重建与融合的框架。实验结果表明,该方法在准确率和速度方面都优于 SOTA 方法。


论文链接:https://arxiv.org/pdf/2104.00681.pdf

NeuralRecon的预训练模型在办公区域场景实时重建的结果

在被 CVPR 接收的众多论文中,我们发现,很多研究其实都是由应用场景驱动的,比如 3D 点云补全可能用于自动驾驶、机器人,3D 场景重建可以用于增强现实(AR)等。这也解释了商汤能够长期保持创新活力的重要原因。

林达华在采访中表示,商汤拥有一个业务跟学术连接的环境,是产生新的学术问题的肥沃土壤,「这些问题带给商汤很多激动人心的研究机会,牵引着我们的技术创新。」

产业落地步伐加快

积累了那么多技术,终究是要拿出来用的。在前段时间举办的上海国际汽车工业展览会上,商汤将多年积累的 AI 技术打包,一股脑地呈现在了多款智能汽车上。

这个打成的「包」就是 Sense Auto 智能汽车解决方案,包括 SenseAuto Pilot 智能驾驶和 SenseAuto Cabin 智能车舱。


SenseAuto Pilot 智能驾驶方案中,最引人关注的 SenseAuto Pilot-P 驾驶领航方案可实现高速公路场景下的车道跟随、超车自动变道、导航自动变道、自动上下匝道、匝道通行等多种 L2 + 级高级辅助驾驶功能;已装在多个量产车型中的 SenseAuto Pilot-V 前视视觉感知方案可以提供 200m 前向有效探测,支持自动紧急制动、车道保持辅助、双预警功能,还能有效应对近距离行人 / 非机动车横穿等复杂场景。此外,车道分离 / 汇合点、路面标识、交通灯形状、施工区域锥形筒等长尾场景元素的感知也在这套系统的能力范围之内。

整套系统背后涉及的技术包括激光雷达高精 3D 感知、点云噪声识别、轨迹预测、长尾目标检测等,这些都出现在了今年的 CVPR 接收论文中。商汤表示,该系统能够在最大程度上发挥摄像头、毫米波雷达、激光雷达等传感器的感知优势,显著提升 3D 目标的检测和跟踪性能,提供智能的道路动态目标轨迹预测,支撑系统安全可靠地拓展至城市工况场景。

SenseAuto Pilot-P 驾驶领航方案可以精准识别道路分离、合并点,帮助车辆在匝道内进行合理决策,实现自动上下匝道的 L2 + 级高级辅助驾驶功能

SenseAuto Cabin 智能车舱解决方案同样令人眼前一亮,涵盖 SenseAuto Cabin-D 驾驶员感知系统、SenseAuto Cabin-O 座舱感知系统 、SenseAuto Cabin-K 智能进入、SenseAuto Cabin-V 座舱域视觉控制器等模块。这些功能可以为驾驶员提供无接触的车舱交互,减少点触操作频率;对疲劳、分心以及接打手机等危险行为进行提醒;还能自动感知是否有儿童被独自遗留在车内等。这背后离不开成熟的目标检测、跟踪、识别等视觉算法。

目前,商汤在智能车舱领域已经和全球超过 30 家头部企业展开合作,定点量产项目数超过 30 个,覆盖车辆总数超过 1300 万辆

搭载了商汤 SenseAuto Cabin 智能车舱解决方案的 WEY 全新旗舰车型摩卡首次亮相上海车展。

从智能驾驶到智能车舱,可以看到商汤落地的步伐正在加快。这不仅得益于其与生俱来的创新能力,也离不开丰富的算力资源和算法、数据等方面的积累。这些成果共同构成了商汤正在建设的AI基础设施——SenseCore商汤AI大装置林达华透露,这个 AI 大装置不仅帮助商汤缩短了创新验证的周期,还将成为未来十年重要的 AI 基础设施,逐渐提供开放服务,演变成一个面向整个生态、整个社区的具有公共性质的设施。


AI 大装置蓄势待发

在上海临港新片区,一座宛如芯片的建筑群将在今年年底投入使用。这是商汤正在建设的人工智能计算中心(Artificial Intelligence Data Center,AIDC),全部建成后 AI 计算峰值速度将达到 3740 Petaflops(1 petaflop 等于每秒 1 千万亿次浮点运算),可以在一天之内把人类石器时代到现在所有时间录成的视频计算完成,也能在一天之内完整训练 OpenAI 的千亿参数模型 GPT-3


但是,AIDC 仅仅是商汤 AI 大装置的一部分,而远非全部。从结构上看,整个大装置共分为三层:

  • 一是算力层。该层以 AIDC 为基础,兼容 AI 芯片和 AI 传感器的强大能力。

  • 二是平台。这一层融合了商汤的数据平台、高性能计算引擎、深度学习训练框架(SenseParrots)以及模型生产平台等,打造了创新的人工智能通用算法开发平台,实现从数据存储、标注到模型训练、生产、部署、测试的全链路、批量化过程。

  • 三是算法层。这一层包含各种算法工具箱,不仅有城市交通、园区等高频应用场景算法,还有火灾、垃圾检测等长尾低频的算法。截止目前,商汤已经推出 13000 多个技术模型,以及 17000 多个商业模型。同时他们也推出了 OpenMMLab 开源算法体系,该体系已在 Github 上获得 3 万多颗星。


建设这么一个 AI 大装置需要投入大量的精力(AIDC 总投资高达 56 亿元),但在商汤看来,这是面向未来必须迈出的一步。

「在经历了几年的产业化之后,AI 已经到了一个全新的阶段,可以说一些简单的问题已经基本上被解决了。下一步就是要深入到更广泛的行业里面,需要新一轮的突破和创新。林达华说道。

GPT-3 等超大模型的出现让商汤看到了实现下一个突破的希望:「以前我们都是针对一些具体的问题或者高度定制化的场景去生产一些中小模型。但随着 AI 落地推演到越来越广的领域,成千上万的具体问题(长尾问题)开始涌现。如果每个问题都有很多的研究人员投入进去,那么我们就很难深化 AI 的进一步落地。这个时候,整个行业需要通用性更强的模型,用一个模型支撑更多的任务。一方面,这种模型能够让 AI 的研发、落地效率得到一个质的提升;另一方面,它们能够更好地去回应综合场景的问题,比如智慧城市、智慧医疗等。这些任务都需要通过多个任务综合解决。」

但是,模型的通用性越强,需要的数据、算力往往也越多,这便是商汤建设 AI 大装置的底层逻辑

当然,AI 大装置也不是一朝一夕就建成的。其实早在 2018 年 4 月,商汤就已经开始布局人工智能计算原型机研制项目,虽然当时并不被看好。但好在,后续出现的一些大模型已经显示出了解决长尾问题的巨大潜力。

如今,这个 AI 大装置已经开始发挥它的作用。林达华透露说,「我们几乎所有的研究工作都是在这个大装置的基础上进行的。」「它为做算法研究的同学提供了充足的算力,使他们能够快速地进行实验试错。」此外,大装置中所积累的实用工具也缩短了创新的验证周期。

借助大装置,商汤已经在超大模型技术研究方面取得一定成绩。例如在计算机视觉的卷积神经网络(CNN)领域,通常模型参数都在 1 亿以下,但商汤的 AI 框架 SenseParrots 能支持 50 亿参数超大视觉模型的训练。AIDC 完全投入使用后,计划支持的超大视觉模型训练参数可达更高的数量级。

由于可以显著降低 AI 落地的门槛,商汤的 AI 大装置对于推动整个人工智能行业的发展也有着重要的战略意义林达华表示,「从整个社会的角度来说,AI 基础设施将逐渐从一个企业内部的平台,发展为逐渐提供开放服务,并最终演变成一个面向整个生态、整个社区的具有公共性质的设施。这些设施的构建能够有效地支撑整个生态,最终使得整个 AI 人才的基础变得更加宽广,从而进一步推动 AI 产业的深化。」
理论商汤科技CVPR
相关数据
商汤科技机构

商汤科技作为全球领先的人工智能平台公司,商汤科技SenseTime是中国科技部指定的“智能视觉”国家新一代人工智能开放创新平台。同时,商汤科技也是全球总融资额及估值最高的人工智能创新企业。 商汤科技以“坚持原创,让AI引领人类进步”为愿景。公司自主研发并建立了全球顶级的深度学习平台和超算中心,推出了一系列领先的人工智能技术,包括:人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶和遥感等。商汤科技已成为亚洲最大的AI算法提供商。 商汤科技在多个垂直领域的市场占有率位居首位,业务涵盖智能手机、互联网娱乐、汽车、智慧城市、以及教育、医疗、零售、广告、金融、地产等多个行业。目前,商汤科技已与国内外700多家世界知名的企业和机构建立合作,包括本田、SNOW、阿里巴巴、苏宁、中国移动、OPPO、vivo、小米、微博、万科、融创等。

http://www.sensetime.com
林达华人物

香港中文大学助理教授。研究兴趣:计算机视觉和机器学习。

汤晓鸥人物

汤晓鸥,现任香港中文大学信息工程系系主任,兼任中国科学院深圳先进技术研究院副院长。中央组织部“千人计划”入选者,全球人脸识别技术的“开拓者”和“探路者”,商汤科技联合创始人。2014年3月,汤晓鸥团队发布研究成果,基于原创的人脸识别算法,准确率达到98.52%,首次超越人眼识别能力(97.53%)。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

轨迹预测技术

轨迹预测探索不同交通代理的运动模式,准确预测未来轨迹,帮助自主车辆做出合理的导航决策。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

姿态检测技术

姿态检测是指主体对主要行为者提出的主张的反应。它是假新闻评估的一套方法的核心部分。

视频超分辨率技术

视频超分辨率是将视频从低分辨率升级到高分辨率的任务。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~