AI科技大本营作者

盘点旷视14篇CVPR 2019论文,都有哪些亮点?

编者按

回顾 CVPR 2018 ,旷视科技有 8 篇论文被收录,如高效的移动端卷积神经网络 ShuffleNet、语义分割的判别特征网络 DFN、优化解决人群密集遮挡问题的 RepLose、通过角点定位和区域分割优化场景文本检测的一种新型场景文本检测器、率先提出的可复原扭曲的文档图像等等。今年,旷视科技在 CVPR 2019 上共有 14 篇论文被接收。今天小编与大家一起学习一下这14 篇论文。

行人重识别

1、《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》:提出了局部可见感知模型——VPM。

论文摘要:

论文中考虑了行人重新识别 (re-ID) 的一个现实问题,即局部行人重识别问题。在局部行人重识别场景下,需要探索数据库图像中包含整体人物的比例大小。如果直接将局部行人图像与整体行人图像进行比较,则极端空间错位问题将显著地损害特征表征学习的判别能力。针对这个问题,本文提出了一个局部可见感知模型 (VPM),通过自监督学习感知可见区域内的特征,来解决局部行人重识别问题。该模型利用可见感知的特性,能够提取区域特征并比较两张图像的共享区域 (共享区域在两张图像上都是可见区域),从而局部行人重识别问题上取得更好的表现。总的来说,VPM 有两大优势:一方面,与学习全局特征的模型相比,VPM 模型通过学习图像区域特征,能够更好地提取一些细粒度特征信息。另一方面,利用可见感知特征,VPM 能够估计两个图像之间的共享区域,从而抑制空间错位问题。通过大量的实验结果验证,VPM 模型能够显著地改善特征表征的学习能力,并且在局部和整体行人重识别场景中,均可获得与当前最先进方法相当的性能。

图像 3D 纹理生成

2、《Re-Identification Supervised 3D Texture Generation》:在研究欠缺领域——图像 3D 纹理生成领域中,提出一种端到端的学习策略。

论文摘要:

近年来,对单张图像中人体 3D 姿态和形状估计的研究得到了广泛关注。然而,在图像 3D 纹理生成领域的研究却相当的欠缺。针对这个问题,本文提出一种端到端的学习策略,利用行人重识别的监督信息,来解决图像中人体纹理生成问题。该方法的核心思想是,利用输入的图像渲染图像中行人纹理,并将行人重识别网络作为一种感知标准,来最大化渲染图像和输入原图像之间的相似性。本文在行人图像上进行了大量的实验,结果表明所提出的方法能够从单张图像输入中生成纹理,其质量明显优于其他方法所生成的纹理。此外,本文将此应用扩展到其他方面,并探索所生成纹理的可使用性。

3D 点云

3、《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》:提出 Geo-CNN 模型,将深度卷积神经网络应用于 3D 点云数据局部区域中点的几何结构建模。

论文摘要:

得益于深度卷积神经网络 (CNN) 的近期的应用和发展,许多研究人员将其直接用于 3D 点云的数据建模。一些研究已证明,卷积结构对于点云数据的局部结构建模是非常有效的,因此研究者将其用于层级特征中的局部点集建模的研究。然而,对于局部区域中点的几何结构建模研究的关注却相当有限。为了解决这个问题,本文提出一种 Geo-CNN 模型,将一个名为 GeoConv 的通用卷积式操作应用于区域中的每个点及其局部邻域。当提取区域中心点与其相邻点之间的边缘特征时,该模型能够捕获点之间的局部几何关系。具体来说,首先将边缘特征的提取过程分解为三个正交基础,接着基于边缘向量和基础向量之间的角度,聚合所提取的特征,通过层级特征的提取,能够使得网络特征提取过程中保留欧式空间点的几何结构。作为一种通用而高效的卷积操作,GeoConv 能够轻松地将 3D 点云分析过程集成到多个应用中,而以 GeoConv 为结构的 Geo-CNN 模型在 ModelNet40 和 KITTI 数据集的点云数据建模任务上都实现了当前最先进的性能。

场景文字检测

4、《Shape Robust Text Detection with Progressive Scale Expansion Network 》:提出 PSENet 模型,一种新颖的渐进式尺度可拓展网络,针对场景文字检测中任意形状文本问题。此研究后续会开源,大家可以继续关注。

论文摘要:

得益于深度卷积神经网络的发展,场景文本检测领域近来取得了快速发展。然而,对于其在工业界是的实际应用而言,仍存在两大挑战:一方面,大多数现有的方法都需要采用四边形的边界框,这种边界框在定位任意形状的文字时的性能很差,精确度很低。另一方面,对于场景中两个彼此接近、互相干扰的文本,现有技术可能会产生误检,结果会包含两个实例。传统的方法采用分段式的技术可以缓解四边形边界框的性能问题,但通常无法解决误检问题。因此,为了解决上述两个问题,本文提出了一种新颖的渐进式尺度可扩展网络 (PSENet),它可以精确鲁棒地检测场景中任意形状的文本实例。具体地说,PSENet 模型能够为每个文本实例生成不同比例的核 (kernel),并将最小比例的 kernel 逐步扩展生成完整形状比例的 kernel,以适应不同大小的文本实例。此外,由于最小尺度的 kernel 之间存在较大的几何边距,因此 PASNet 能够有效地分割场景中一些紧密的文本实例,从而更容易地使用分段方法来检测任意形状的文本实例。大量的实验结果表明,PSENet 模型在 CTW1500,Total-Text,ICDAR 2015 和 ICDAR 2017 MLT等数据集上都能实现非常有效、鲁棒的检测性能。值得注意的是,在包含长曲线的 CTW1500 数据集上,PSENet 模型在 27 FPS 的速度下能够实现74.3%的F-measure,而最高的F-measure 可达82.2%,超过当前最先进的方法 6.6%。

全景分割

5、《An End-to-end Network for Panoptic Segmentation》:在全景分割研究领域中,旷视提出了一种新颖的端到端的全景分割模型。

论文摘要:

全景分割,是需要为图像中每个像素分配类别标签的同时,分割每个目标实例的一种分割任务。这是一个具有挑战性的研究领域,传统的方法使用两个独立的模型但二者之间不共享目标特征,这将导致模型实现的效率很低。此外,传统方法通过一种启发式方法来合成两种模型的结果,在合并过程期间无法利用足够的特征上下文信息,这就导致模型难以确定每个目标实例之间的重叠关系。为了解决这些问题,本文提出了一种新颖的端到端全景分割模型,能够有效地、高效地预测单个网络中每个目标实例及其分割结果。此外,还引入了一种新颖的空间排序模块来处理所预测的实例之间的重叠关系问题。大量的实验结果表明,所提出的方法能够在 COCO Panoptic 基准上取得了非常有前景的结果。 

时空动作检测

6、《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》:旷视在时空动作检测研究领域针对时间维度问题提出了网络——TACNet(上下文转换感知网络),改善时空动作检测性能。

论文摘要:

当前,时空动作检测领域最先进的方法已经取得了令人印象深刻的结果,但对于时间维度的检测结果仍然不能令人满意,其主要原因在于模型会将一些类似于真实行为的模糊状态识别为目标行为,即使是当前性能最佳的网络也是如此。因此,为了解决这个问题,本文将这些模糊状态样本定义为“转换状态 (transitional states)”,并提出一种上下文转换感知网络 (TACNet) 来识别这种转换状态。TACNet 网络主要包括两个关键部分,即时间上下文检测器和转换感知分类器。其中,时间上下文检测器可以通过构造一个循环检测器来提取具有恒定时间复杂度的长期上下文信息,而转换感知分类器则是通过同时对行动和转换状态进行分类来进一步识别转换状态。因此,TACNet 模型可以显著地改善时空动作检测的性能,并在 UCF101-24 和 J-HMDB 数据集实现非常有效的检测性能。其中, TACNe 在 JHMDB 数据集上取得了非常有竞争力的表现,并在 frame-mAP 和 video-mAP 两个指标上明显优于 UCF101-24 数据集中最先进的方法。

图像超分辨率

7、《Zoom in with Meta-SR: A Magnification-Arbitrary Network for Super-Resolution》:近年来,图像超分辨率研究已经取得了很大的成功,但在这篇论文中,旷视将研究重点放在其一个被忽视的方向:任意缩放因子的超分辨率研究。论文中对此问题提出了一个新方法—— Meta-SR(任意放大网络)

论文摘要:

得益于深度卷积神经网络 (DCNNs) 的发展,近期图像超分辨率领域的研究取得了巨大的成功。然而,对于任意缩放因子的超分辨率研究一直以来都是被忽视的一个方向。先前的研究中,大多数都是将不同缩放因子的超分辨率视为独立任务,且只考虑几种整数因子的情况,为每个因子训练特定的模型,这严重影响了整体模型的效率。因此,为了解决这个问题,本文提出了一种称为 Meta-SR 的新方法。具体来说,首先通过单一模型来求解任意缩放因子 (包括非整数比例因子) 的超分辨率情况。接着,在 Meta-SR 中,使用 Meta-upscale 模块替代传统方法中的 upscale 模块。对于任意缩放因子,Meta-upscale 模块通过将缩放因子作为输入来动态地预测每个 upscale 滤波器的权重,并使用这些权重来生成其他任意大小的高分辨率图像 (HR)。而对于任意的低分辨率图像,Meta-SR 可以通过单个模型,以任意缩放因子进行连续地放大。最后,对于所提出的方法,在一些广泛使用的基准数据集上进行性能评估,结果展示了 Meta-Upscale 的有效性和优越性。

目标检测

8、《Bounding Box Regression with Uncertainty for Accurate Object Detection》:目标检测中不确定性边界框问题,在这篇论文中提出了一中新的边界框回归损失算法,提高了各种检测体系的目标定位精度。

该研究相关的代码和模型已开源,地址:

https://github.com/yihui-he/KL-Loss

论文摘要:

诸如 MS-COCO 在内大规模目标检测数据集,都旨在尽可能清楚地定义目标真实的边界框标注。然而,事实上在标注边界框时经常会产生歧义。因此,为了解决这个问题,本文提出了一种新的边界框回归损失 (bounding box regression loss) 算法,用于学习边界框变换和局部方差。这种损失算法提高了各种检测体系的目标定位精度,且几乎不需要额外的计算成本。此外,该算法的另一大优势在于它能够学习目标的定位方差,这允许模型在非最大抑制 (NMS) 计算阶段合并相邻的边界框,以便进一步改善了定位的性能。在 MS-COCO 数据集上,该损失算法能够将 Faster R-CNN (VGG-16) 的平均精度 AP 从23.6%提高到29.1%。更重要的是,对于 Mask R-CNN (ResNet-50-FPN),该算法将 AP 和 AP 90 分别提高了1.8%和6.2%,这明显优于当前最先进的边界框细化 (bounding box refinement) 方法。

语义分割

9、《DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation》:今年唉语义分割研究方向,旷视提出一种非常有效的 CNN 架构——DFANet,一种在有限资源下,用于实时语义分割的深度特征聚合算法。

论文摘要:

本文提出一种在有限资源条件下的语义分割模型 DFANet,这是一种非常有效的 CNN 架构。DFANet 从单个轻量级骨干网络开始,分别通过子网和子级联的方式聚合判别性特征。基于多尺度特征的传播,DFANet 网络在获得足够感受野的同时下,大大减少了模型的参数量,提高了模型的学习能力,并在分割速度和分割性能之间取得了很好的平衡。通过在 Cityscapes 和 CamVid 数据集上的大量实验评估,验证了 DFANet 网络的优越性能:相比于最先进的实时语义分割方法,DFANet 网络的分割速度快了3倍,而只使用七分之一的 FLOP,同时保持相当的分割准确性。具体来说,在一块NVIDIA Titan X卡上,对于1024×1024输入,DFANet 在 Cityscapes 测试数据集上实现了71%的平均 IOU (Mean IOU),分割速度为170FPS,而仅有3.4 GFLOP。同时,当使用较小的骨干模型时,它能够取得67%的平均IOU (Mean IOU),250 FPS 的分割速度和2.1 GFLOP。

多标签图像识别

10、《Multi-Label Image Recognition with graph convolutional Networks》:为了构建图像中同时出现的不同目标标签的依赖关系模型,来提高模型的识别性能,在这篇论文中提出了一种基于图卷积网络模型——GCN。

论文摘要:

多标签的图像识别任务,旨在预测图像中所有存在的目标标签。由于图像中的目标通常是同时出现的,因此理想状态下,我们希望对不同目标标签的依赖性进行建模以便提高模型的识别性能。为了捕获和利用这种重要的依赖关系,本文提出了一种基于图卷积网络的模型 (GCN)。该模型能够在目标标签之间构建有向图,其中每个节点 (标签) 由词嵌入 (word embedding) 表示,而 GCN 网络用于将该标签图映射到一组相互依赖的目标分类器。这些分类器使用另一个子网络提取的图像描述器,实现整个网络的端到端训练。此外,通过设计不同类型的相关矩阵并将它们集成到图卷积网络中训练,来深入研究图构建问题。通过在两个多标签图像识别数据集基准的试验评估,结果表明所提出的方法明显优于当前最先进的方法。此外,可视化分析结果表明图卷积网络模型所学习的分类器能够保持有意义的语义结构信息。

关于提高 GIF 视觉质量

11、《GIF2Video: Color Dequantization and Temporal Interpolation of GIF images》:GIF 图像中视觉伪像问题如何解决?这篇论文中提出一种 GIF2Video 方法,通过颜色去量化 CNN 模型和时序插值算法 SuperSlomo 网络,来提高自然条件下 GIF 视觉质量。

论文摘要:

GIF 是一种高度可移植的图形格式,在网络上无处不在。尽管 GIF 图像的尺寸小,但它们通常包含一些视觉伪像,如平面颜色区域,伪轮廓,颜色便移和点状图案。本文提出一种 GIF2Video 方法,这是第一种基于学习来提高自然条件下 GIF 视觉质量的方法。具体来说,该方法通过恢复 GIF 创建时三个步骤中丢失的信息来实现 GIF 的恢复任务:即帧采样,颜色量化和颜色抖动。首先,提出了一种用于颜色去量化的新型 CNN 架构,它是一种多步骤的颜色校正组合架构,并设计一种综合的损失函数用于衡量大量化误差。接着,采用 SuperSlomo 网络对 GIF 帧进行时间插值。最后,在 GIF-Faces 和 GIF-Moments 两个大型数据集上进行实验评估,结果表明所提出的方法能够显著地提高 GIF 图像的视觉质量,并优于基准和当前最先进的方法。

点云数据分析

12、《GeoNet: Deep Geodesic Networks for Point Cloud Analysis》:旷视在这篇论文中提出了 GeoNet 模型,这是第一个用于模拟点云数据表面结构的深度学习方法。

论文摘要:

基于表面的测量拓扑理论为目标的语义分析和几何建模研究提供了强有力的线索。但是,对于点云数据而言,这种关联信息往往会丢失。因此,本文提出一种 GeoNet 模型,这是第一个用于模拟点云数据表面结构的深度学习方法。此外,为了证明模型所学习的信息表示的适用性,本文进一步提出了一种融合方案,用于将 GeoNet 网络与其他基线或骨干网络 (如 PU-Net 和 PointNet ++) 结合使用,用于点云数据的 down-stream 分析。大量的实验结果表明,所提出的方法能够在多个代表性的任务 (这些任务受益于底层的表面拓扑信息的理解) 上改进当前最先进方法的性能,包括点上采样,正常估计,网格重建和非刚性形状分类等。

室外场景深度估计

13、《DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR Data and Single Color Image》:这篇论文提出的深度学习架构——DeepLiDAR 主要应用与单色图像和稀疏深度图像的室外场景深度估计,实现端到端的图像密集深度估计。

论文摘要:

本文提出一种深度学习架构,用于为单色图像和稀疏深度图像中室外场景生成精确的密集深度估计。受室内场景深度估计方法的启发,所提出的网络将曲面法线估计作为一种中间表示,实现端到端的图像密集深度估计。具体来说,通过改进的编解码器结构,网络能够有效地融合密集的单色图像和稀疏 LiDAR 数据的深度。为了解决室外场景的特定挑战,该网络还预测了一个置信掩模 (confidence mask),用于处理由于遮挡而出现在前景边界附近的混合 LiDAR 数据信号,并将单色图像和曲面法线的估计结果与所学习的注意力映射图相结合,以便提高深度估计的精度,这对于远距离的区域而言尤其重要。通过大量的实验评估,结果表明所提出的模型能够改进了 KITTI 数据集深度估计任务上最先进方法的性能。此外,通过消融研究进一步分析模型每个组件对最终估计性能的影响,结果表明模型具有良好的泛化能力和应用前景,能够推广到稀疏度更高的室外或室内场景。

紧凑、有效的深度学习模型

14、《C3AE: Exploring the Limits of Compact Model for Age Estimation》: 全年旷视的论文中提出了 ShuffleNets 网络,一种可应用与移动端的轻量级模型,但是在减少参数数量的情况下,模型的表达能力肯定会受削弱影响。因此,在今年旷视的这篇论文中提出了这个紧凑而有效的深度学习模型——C3AE,一种基于级联上下文信息的模型用于年龄估计问题。

论文摘要:

年龄估计是计算机视觉中一个经典的学习问题。诸如 AlexNet,VggNet,GoogLeNet 和 ResNet 等更大更深的 CNN 模型已经能够取得很好的性能。然而,这些模型无法应用于嵌入式/移动设备。最近所提出的 MobileNets 和 ShuffleNets 网络主要是通过减少参数的数量来实现轻量级模型,以便应用于移动端设备。然而,由于采用了深度可分的卷积,这些模型的表达能力被严重削弱。因此,针对这些问题,本文研究紧凑模型在小尺度图像方面的局限性,并提出一种基于级联上下文信息的年龄估计模型 C3AE,这是一种极其紧凑而有效深度学习模型。与 MobileNets/ShuffleNets 和 VggNet 等模型相比,C3AE 模型仅具有1/9和1/2000参数,同时实现了与其相当的性能。特别是,通过级联模型能够只使用两点表征的信息来重新定义年龄估计问题。此外,为了充分利用人脸上下文信息,本文还提出了多分支的 CNN 网络来聚合多尺度上下文信息。C3AE 模型在三个年龄估计数据集上取得了远超当前最先进方法的性能表现,并证明这种紧凑模型的优越性。

运筹OR帷幄
运筹OR帷幄

『运筹OR帷幄』是大数据人工智能时代的运筹学,普及运筹学和优化理论,及其在人工智能和供应链中的应用。

理论深度学习数据分析图像识别语义分割目标检测动作识别全景分割行人重识别旷视科技CVPR 2019
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

时间复杂度技术

在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。例如,如果一个算法对于任何大小为 n (必须比 n0 大)的输入,它至多需要 5n3 + 3n 的时间运行完毕,那么它的渐近时间复杂度是 O(n3)。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

GoogLeNet技术

同样在2014年,谷歌提出了 GoogLeNet(或Inception-v1)。该网络共有22层,且包含了非常高效的Inception模块,它同样没有如同VGG-Net那样大量使用全连接网络,因此参数量非常小。GoogLeNet最大的特点就是使用了Inception模块,它的目的是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

MobileNets技术

MobileNet是专用于移动和嵌入式视觉应用的卷积神经网络,是基于一个流线型的架构,它使用深度可分离的卷积来构建轻量级的深层神经网络。通过引入两个简单的全局超参数,MobileNet在延迟度和准确度之间有效地进行平衡。MobileNets在广泛的应用场景中有效,包括物体检测、细粒度分类、人脸属性和大规模地理定位。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

掩饰的基于区域的卷积神经网络技术

Mask R-CNN是一个概念上简单,灵活和通用的对象实例分割框架。 该方法能够高效地检测图像中的对象,同时为每个实例生成高质量的分割蒙版。 这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快,该分支与现有的用于边界框识别的分支并行。

旷视科技机构

旷视科技是以人工智能技术为核心的物联网解决方案提供商,致力于用非凡科技为客户和社会创造最大价值。基于自主原创的AI技术体系,旷视赋能手机、摄像头、机器人等感知设备,让“机器看懂世界”,并通过软硬结合的解决方案构建个人IoT、公共IoT、商业IoT三大物联网络,助力行业实现降本增效,提升客户商业效益和人们生活品质。旷视科技是世界最早一批用深度学习方法实现人脸识别规模化商用的人工智能企业之一,旗下拥有全球领先的人脸识别开放平台Face++和第三方人脸身份验证平台FaceID,并已在多个垂直领域推出了包括人脸识别支付、人脸识别解锁、全帧智能抓拍机在内的多个具有开创性意义的AI产品。 旷视科技在行业的领先地位源于对核心技术持之以恒的创新。作为中国人工智能原创技术企业代表之一,旷视拥有国内外在申及授权专利900余件,并代表行业领先技术提供方参与了19项人工智能国家及行业标准制定。旷视在各项国际人工智能顶级竞赛中多次击败Google、Facebook、Microsoft等知名企业,揽获25项世界技术评测第一,在ECCV2018的COCO、Mapillary竞赛中,旷视独揽4冠,刷新了中国AI技术的世界新高度。旷视科技取得的成绩获得了诸多认可。2014年,旷视被认定为国家级高新技术企业;2015年,旷视被认定为中关村高新技术企业;2016年11月,旷视入选中关村前沿科技企业;2017年3月,旷视被科技部评为“独角兽”企业,并位列人工智能企业首位;2017年5月,旷视核心人脸识别技术被美国著名科技评论杂志《麻省理工科技评论》评定为2017全球十大突破技术,同时旷视入榜“全球最聪明公司”排名第11位;2017年7月,旷视受邀在国家政府半年经济会议中向李克强总理做企业创新汇报;2017年12月,旷视产业级的人工智能技术入选世界互联网领先科技成果;2018年,旷视入选国家知识产权示范企业,获批全国博士后科研工作站一级站点,并承担国家重点研发计划“变革性技术关键科学问题”重点专项核心课题。

目标定位技术

目标定位任务不仅要识别出图像中是什么,还要给出目标在图像中的位置信息。简单的说,就是用一个矩形框把识别的目标框出来(有时候也有多个固定数量的目标)。一般基本思路是多任务学习,网络带有两个输出分支。一个分支用于做图像分类,即全连接+softmax判断目标类别,和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置,即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽),该分支输出结果只有在分类分支判断不为“背景”时才使用。

颜色量化技术

颜色量化是利用人眼对颜色的惰性,将原图像中不太重要的相似颜色合并为一种颜色,减少图像中的颜色,而使量化前后的图像对于人眼的认识误差最小,即量化误差最小。颜色量化是数字图像处理的基本技术之一,传统的量化算法有分割法和聚类法。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

暂无评论
暂无评论~