Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南作者

在CVPR上,OPPO的一系列「业界首次」

下个爆款应用,可能就来自于这些研究。

用 AI 重建真实环境的 3D 数字模型,是虚拟现实、游戏环境渲染等任务的重要环节。通常人们必须依赖红外传感器、ToF 等特殊设备才能获得精确的图像,处理数据也需要消耗巨大的算力时间,因此,它经常会成为构建应用的瓶颈。

最近,有人展示了全新的技术:只需要一个平板电脑的算力,我们就可以用普通摄像头实时描绘一个房间的复杂实景,同时 AI 算法可以自动标记所有物体并将其正确分类。

更进一步,如果扫描的视角转了完整的 360 度,算法就可以自动重建出房间的模型:

这项技术出自 OPPO 研究院联合清华大学提出的 INS-Conv (INcremental Sparse Convolution),其算法可以更快更准确地实现在线 3D 点云语义及实例分割推断,有效降低了环境识别对于终端算力的要求。

INS-Conv 的论文在刚刚结束的人工智能顶会 CVPR 2022 上入选了口头演讲(Oral)环节。


一块平板,实时构建 3D 模型

图像分割是 AI 领域的重要技术,许多计算机视觉任务,如机器人、AR/VR 应用中,人们都需要对图像进行智能分割,以充分理解周围环境,实例分割旨在让 AI 识别出 3D 场景中的物体,对于每个像素点都需要进行语义预测。

最近一段时间,专注于离线 3D 分割的方法在精度方面实现了很多进步,这些方法已有较高准确性,但识别的速度可能需要几秒钟一帧——其骨干网络通常需要全局几何作为输入,无法满足实时应用的需求。

图像语义分割是像素级预测的一种形式,目标图像中的每个像素都会被算法进行分类。

对于实时在线的 3D 分割任务,人们常见的解决方案则是 2D-to-3D 方法,这意味着需要对 RGBD 图像(色彩加深度)执行 2D 卷积,然后将 2D 预测投影到 3D 空间,用概率模型与之前的结果发生融合。这些方法仅能利用二维信息,分割精度较低。

此外,大多数在线 3D 分割方法只区分物体种类,不区分不同物体。如何在实现在线推理和 3D 重建的同时实现高度准确的 3D 语义实例分割仍然是一个悬而未决的问题。

在 INS-Conv 研究中,研究人员提出的增量稀疏卷积网络可以实现实时且准确的 3D 语义和实例分割

INS-Conv 的语义分割管道。核心是 INS-Conv 骨干网络,用于对一系列逐渐变化的输入几何的残差进行增量特征提取。之后,聚类阶段和融合阶段生成时间一致的语义和实例分割结果。

新方法会为每个时间步的重建场景形成一个递增的 3D 几何序列,通过对连续帧的残差进行增量推理,这种方式节省了大量冗余计算。更具体地说,在神经网络层设计中,新方法为稀疏卷积操作定义了全新的残差传播规则,用 INS-Conv 层替换标准稀疏卷积网络层,就能以最小的精度损失实现高效的增量推理。

基于 INS-Conv 的实时 3D 语义和实例分割系统,研究人员在每个时间步上通过主干网络提取 3D 特征后使用聚类生成对更新点的实例预测,然后将其融合到之前的结果中,使用实例融合得到最终的实例分割结果阶段,最终实现了业内最优的分割精度。

在实践中,研究人员提出的在线联合 3D 语义和实例分割算法在 GPU 上可达到 15 FPS,在 CPU 上也达到了每秒 10 帧的推理速度。多个数据集上的实验表明,新方法准确性大大超过了此前人们提出的在线方法,且与最先进的离线方法水平相当。

从便携式设备上本地运行的 Demo 效果来看,INS-Conv 在准确性和效率方面的领先性能使其特别适用于 AR/VR 或机器人应用,为自动驾驶、虚拟现实等前沿技术的落地提供了高效率、低成本的新方法。

或许不久以后,无人驾驶车辆和机器人就可以摆脱雷达只用摄像头,人们的手机上还会出现可以给自己房间建模的 APP。


把 AI 审美水平提高一个台阶

3D 建模技术可以让很多技术变得更加便利,OPPO 研究员还在思考脑洞更大的事:在 CVPR 上,OPPO 的一篇论文介绍了如何用深度学习来捕捉不同人的审美偏好。

随着 AI 图像识别能力的逐渐成熟,让 AI 具备审美能力成了人们追逐的新目标之一。从数据视角来看,AI 审美能力往往与训练所使用的数据和标注者的审美偏好关联较大,但人的审美往往是各不相同的。使用基于大数据的美学评价来为不同用户服务,可能会引发人们对于「审美歧视」的讨论,或带来不尽如人意的用户体验。

在论文《Personalized Image Aesthetics Assessment with Rich Attributes》中,OPPO 研究院联合西安电子科技大学李雷达教授,开创性地提出了带条件的 PIAA 算法,首次从「用户主观偏好与图像美学相互作用,如何产生个性化品味」的角度出发,提出了个性化美学评价新方法。

一般地,图像美学评估算法可分为两类:通用和个性化图像美学评估(GIAA 和 PIAA)。对于 GIAA,图像通常由多位标注员进行注释;在建模时,通常使用平均意见分数 (MOS) 或美学注释分数分布作为美学的「基本事实」。然而,GIAA 反映的是审美的「平均意见」,忽略了审美品味的高度主观性。为了缓解这个问题,人们提出了 PIAA 方法,可以捕捉不同人的独特审美偏好。

不同的审美习惯往往与不同的用户画像和审美经验相关。在提出的方法中,研究人员在建模审美偏好时,额外引入了三种条件信息,包括个人性格、美学经验以及摄影经验。实验结果显示:利用被试的属性信息进行 PIAA 建模,可以提高模型性能。

除上述提出的算法外,在参考已有美学评价主流数据集的基础上,来自 OPPO 和西电的研究员们进行了迄今为止最全面的个性化图像美学评价主观实验,构建了一个具有丰富注释的个性化美学评价数据库 “PARA“并将其开源。数据集包含 31220 张图像,每张图平均由 25 个人类受试者进行注释,标注了 4 个面向人的主观属性(内容偏好、分享意愿等)和 9 个面向图像的客观属性(图像美学、情感等)。

研究员对数据集进行了基准模型研究。包括有条件和无条件的 PIAA 两种建模方法,训练方式如下图所示:

相比通用美学评价模型(GIAA),本文中的个性化美学评价算法使用个人数据进行了微调,旨在学习个性化审美偏好。相比无条件的 PIAA 模型,条件 PIAA 建模时分别添加了三种条件信息,包括个体性格、美学经验和摄影经验。

在实验方面,研究员们参考 Few-shot Learning 及相关个性化美学评价工作基准设置方法,进行了三组基准实验测试:

实验结果显示,通过对个性化数据进行微调,更多的个性化训练数据可以进一步提高微调的性能;同时,引入用户画像作为个性化美学评估的条件信息,可以帮助模型进一步挖掘不同人的审美偏好。

OPPO 研究者表示,在未来,希望个性化美学评价算法能够更好地适配用户的审美习惯,为用户在相册、相机、互联网内容推荐等场景中打造更加个性化的,良好的产品使用体验。


在多个 AI 研究方向取得突破

作为计算机视觉世界三大顶会之一,CVPR 每年都会吸引大量研究机构和高校专家、学者参会。随着人工智能的火热,近年来 CVPR 的论文投稿量正在不断增加。据官方消息,本届大会获得了 8100 余篇论文投稿,其中 2067 篇论文被接收,接收率约为 25%,其中 Oral 的数量为 342 篇。

纵观整个科研圈,CVPR 的地位也在变得越来越重要。根据谷歌学术公布的 2021 年最新学术期刊和会议影响力排名,CVPR 位居第四,仅次于 Nature、新英格兰医学杂志和 Science,是影响力最高的 AI 研究会议。每年在 CVPR 上的重要研究,都会成为近期人工智能领域技术发展和落地的新方向。

今年的 CVPR 2022 上,OPPO 研究院共有 7 篇论文获得收录,内容受到人们的关注。除了上述研究之外,其最新研究还覆盖多视图动作检测、人体姿态估计、三维人体重建、知识蒸馏等领域。

在三维人体重建领域中,OPPO 研究院通过改进 NeRF 创新的动态角色建模方法,在业界首次实现了自动为宽松着装人体创建数字分身的工作。该建模方法仅通过分析摄像头所拍摄的 RGB 视频,就可以 1:1 精准还原人物动态细节,甚至包括衣服细小 logo 或纹理细节。

这项研究可有效降低三维人体重建的门槛,为在线虚拟试装购物、AI 健身和 VR/AR 应用的真正落地提供技术基础。

在《CRIS: CLIP-Driven Referring Image Segmentation》中,研究人员提出了端到端图像分割框架 CRIS,借助视觉语言解码和对比学习来实现文本到像素的对齐,在三个基准数据集的实验中显著优于此前的 SOTA 研究。

论文《Single-Stage is Enough: Multi-Person Absolute 3D Pose Estimation》则将单阶段方案扩展到了 3D 人体姿态估计任务中。解决了当前多人三维姿态估计过程中存在的计算问题。

知识蒸馏作为一种强大的正则化策略,广泛应用于模型压缩、知识迁移和模型增强领域。在《 Self-Distillation from the Last Mini-Batch for Consistency Regularization 》中,研究人员提出了一种简单高效的自蒸馏框架,其易于实现且计算复杂度低,在多个基准数据集上超过了业界最先进的自蒸馏方法。

OPPO 的 CVPR 研究还涉及自动驾驶领域:在论文《MV-TAL: Mulit-view Temporal Action Localization in Naturalistic Driving》中,OPPO 提出了一种基于 Swin Transformer 的灰度视频的多视图时间动作定位系统,实现了高效的驾驶动作识别。

从这些论文的方向看,OPPO人工智能的多个不同方向上都已有了深度且有领先性的研究。除此之外,在 CVPR WAD Argoverse2 比赛的运动预测任务中 OPPO 还提出一种关注地图 boundary 信息的运动预测网络,取得了第一的优异成绩,该项研究能够为自动驾驶提供更多的安全舒适保障。

2020 年初,OPPO 研究院正式成立智能感知与交互研究部。在当年的 CVPR 上,OPPO 获得了大会学术竞赛的两项第一,两项第三。去年,OPPO 在六大赛道中十二赛项中取得了一项第一、七项第二、四项第三的成绩,再次展示了强劲的 AI 创新实力。

今年,OPPO 在 CVPR 2022 上实现了单届七篇主会论文入选,挑战赛三项第一、一项第二、四项第三的好成绩。OPPO 投入前沿科技研发的力度正在加大,其提出的新技术面向应用,已不断投入实践。 

投入技术研发创造众多「业内首次」的同时,OPPO 产品中的黑科技也越来越多,绿厂自研芯片马里亚纳 X,是全球首个为影像而生的专用 NPU 芯片,其面向 OPPO 自研 AI 算法,实现了最高效的计算加速和功耗优化。目前已实现在 Find X5、Reno8 系列产品上的落地,提升产品差异化与竞争力。

在 AR 领域,OPPO 提出了全时空间计算 AR 应用 CybeReal,利用空间计算、融合定位实现了多类硬件设备在物理环境中的厘米级定位。

而去年底 OPPO 发布的智能眼镜 Air Glass 更是新技术的集大成者,其 AR 辅助现实功能可以实现「演讲题词、通知提醒、骑行导航、实时翻译」等一系列功能。其中涉及的技术,包括语音识别自然语言理解计算机视觉人工智能几大方向一个不少。

随着技术的不断进化,我们或许很快就会看到更多新近登上 AI 顶会的论文,变成 OPPO 智能设备中的新能力。


参考内容:

https://arxiv.org/abs/2203.16754

https://arxiv.org/abs/2111.15174

https://arxiv.org/abs/2203.16172

https://arxiv.org/abs/2203.14478

https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_INS-Conv_Incremental_Sparse_Convolution_for_Online_3D_Segmentation_CVPR_2022_paper.pdf

https://openaccess.thecvf.com/content/CVPR2022W/AICity/papers/Li_MV-TAL_Mulit-View_Temporal_Action_Localization_in_Naturalistic_Driving_CVPRW_2022_paper.pdf

产业OPPOCVPR
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

OPPO机构

OPPO,成立于2004年,是一家全球性的智能终端和移动互联网公司,致力于为客户提供最先进和最精致的智能手机、高端影音设备和移动互联网产品与服务,业务覆盖中国、美国、欧洲、东南亚等市场。

www.oppo.cn
用户画像技术

用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。

推荐文章
暂无评论
暂无评论~