ECCV 2018 | 腾讯AI Lab解读19篇入选论文

计算机视觉欧洲大会(European Conference on Computer Vision,简称ECCV)将于9月8日-14日在德国慕尼黑举办,该会议与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议,每年录用论文约300篇。

今年是腾讯AI Lab第二次参加ECCV,共有19篇文章入选,以下为摘要解读。

在近期结束的多个顶会中,腾讯AI Lab还有多篇论文入选,位居国内企业前列,包括ACL 2018 (5篇)ICML 2018(16篇)CVPR 2018(21篇)和此前的NIPS 2017(8篇)

1.针对基于优化的视觉惯导里程计的动态传感器延时建模

Modeling Varying Camera-IMU Time Offset in Optimization-Based Visual-Inertial Odometry

该论文由腾讯AI Lab独立完成。由于相机和IMU(惯导测量单元)这两种传感器提供的信息对于运动估计具有很强的互补性,所以把这两种传感器信息融合在一起用于运动估计被学界证实是很有效的。然而,过去大部分的相机和IMU融合方法都是假设使用了全局快门相机和同步的传感器测量。这个假设在现实情况下往往是不成立的。因为在大部分的消费电子产品里,装配的往往是卷帘快门相机和非同步的传感器测量。为了解决这个问题,本文提出了一种基于非线性优化的单目视觉惯导融合方法。这种方法对相机和IMU之间的延时进行建模,并把其当作一个可动态变化的量。本文提出的这种方法可以统一处理使用卷帘快门相机带来的图像失真问题和非同步的传感器测量问题。同时,为了加速优化过程中所需要的可变长度IMU测量积分,本文提出了一种基于动态规划和红黑树的高效计算方法。最后,为了提高单目视觉惯导融合方法的鲁棒性,本文提出了一种对传感器噪声建模的初始化方法。本文在Euroc数据集和手机采集的数据中和目前最好的方法进行了对比。实验结果表明,本文提出的方法是非常有效的。

2.面向跨年龄人脸识别的正交深度特征分解

Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition

该论文由腾讯AI Lab独立完成。由于年龄变化会导致人的外貌产生显著变化,所以跨年龄人脸识别依旧是人脸识别领域的一项重要挑战。为了减少年龄变化导致的类内差异,本文提出了一种称为正交嵌入CNN(Orthogonal Embedding CNNs, OE-CNNs)的新框架来学习对年龄变化具有鲁棒性的深度人脸特征。具体而言,本文将深度人脸特征分解为两个正交的分量,分别表示与年龄信息相关的分量以及与身份信息相关的分量。通过剥离与年龄信息相关的分量,所得到的身份信息特征便可用于精准的跨年龄人脸识别。此外,为了补充现有的跨年龄人脸数据的不足并推进该领域的学术研究,本文还构建了一个全新的跨年龄人脸数据集(Cross-Age Face Datset, CAF)。研究者在国际著名的跨年龄人脸识别数据集MORPH Album 2,CACD-VS,FG-NET上进行了实验评估,验证了所提出的方法的有效性。最后,研究者在通用人脸识别数据集LFW上也做了实验,验证了本文提出的方法对于通用人脸识别也有很好的泛化性。

3.针对图像自动描述的递归融合网络

Recurrent Fusion Network for Image Captioning

该论文由腾讯AI Lab主导,与复旦大学合作完成。最近,图像的自动描述已经取得了很大进展,所有最先进的模型都采用了编码器-解码器框架。在此框架下,输入图像由卷积神经网络(CNN)编码,然后通过递归神经网络(RNN)转换为自然语言。依赖于该框架的现有模型仅使用一种CNN(例如ResNet或Inception-X)来描述图像内容。因此,不能全面地理解输入图像的语义含义,这限制了描述质量的提高。在本文中,为了利用来自多个编码器的互补信息,提出了一种用于图像的自动描述任务的递归融合网络(RFNet)。该模型的融合过程可以利用CNN输出的特征之间的相互关系,来为解码器生成新的更富含信息的图像表示。MSCOCO数据集上的实验结果证明了本文提出的RFNet的有效性,它是图像自动描述领域中一种新的SOTA技术。

4.基于堆叠式循环一致性生成对抗网络的无间监督图像到图像转换

Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks

该论文由腾讯AI Lab主导,与复旦大学合作完成。最近关于无监督的图像到图像转换研究取得了较为显著的进展,其主要是通过训练一对具有循环一致性损失(cycle-consistent loss)的生成对抗网络Generative Adversarial Networks)。然而,当图像分辨率高或者两个图像域具有显着差异时(例如 Cityscapes 数据集中图像语义分割与城市景观照片之间的转换),这种无监督方法可能产生较差的结果。在本文中,通过把单个转换分解为多阶段转换,提出了堆叠循环一致性对抗网络(SCAN)。其通过学习低分辨率图像到图像的转换,然后基于低分辨率的转换学习更高分辨率的转换,这样做提高了图像转换质量并且使得学习高分辨率转换成为可能。此外,为了适当地利用来自前一阶段的学习到的信息,研究者设计了自适应融合块以学习当前阶段的输出和前一阶段的输出的动态整合。在多个数据集的实验表明,与以前的单阶段方法相比,本文提出的方法可以大大提高图像到图像转换的质量。

5.基于神经网络的双目图像风格转移

Neural Stereoscopic Image Style Transfer

该论文由腾讯AI Lab主导,与电子科技大学合作完成。神经风格转移是一种新兴技术,能够赋予普通图像以极具吸引力的艺术风格。现有的工作已经成功的应用卷积神经网络(CNN)来对2D图像或视频进行风格转移。然而,双目3D图像的风格转移仍然缺乏相应的研究工作。与2D图像不同,对双目3D图像进行风格转移的时候需要保留输入图片的深度信息,否则生成的风格化双目3D图像的立体感会被严重地破坏。在本文中,研究者构建了一个新颖的双路径网络,双目3D图像的每张图片都是在单独的路径中处理。该网络能够在对双目3D图片进行风格转移的同时,保留输入图片的深度信息。除了使用传统的感知损失来控制生成图片的风格化质量外,研究者提出了多层视角损失函数,能够有效的保留输入图片的深度信息。此外,研究者还提出了一个特征聚合模块,该模块能够有效地共享两条路径之间的特征信息,在多层视角损失函数的监督下,该模块能够进一步保留输入图片的深度信息。实验结果表明,与以前的方法相比,该网络不仅能够实现优秀的风格转移效果,还能够很好的保持原图的深度信息。

6.视频再定位

Video Re-localization

该论文由腾讯AI Lab主导,与罗彻斯特大学合作完成。目前,视频检索领域已经发展的很成熟,但是这个领域当中还有一些未解决的问题。例如,给定一个查询视频,如何在一个长的备选视频当中找到与查询视频语义相关的片段?本文定义了一种名叫视频重定位(video re-localization)的新任务来解决这样的问题。视频重定位有广泛的应用价值,例如它可以用于视频片段定位、拷贝检测、视频监控等。同时,视频重定位也是一种很难解决的任务,因为语义相关的视频,可能看起来非常不同。要解决视频重定位问题,第一个难点就是没有相关的视频数据集。收集和标注语义相关的视频,是一项非常费时费力的工作。因此,研究者重新组织了ActivityNet数据集中的视频,用于视频重定位的研究。然后,本文提出了一种cross gating的双线性匹配(bilinear matching)模型,用来匹配查询视频和备选视频。最后,研究者用分类的方式,来预测相关片段的起始点和终止点。实验证明,本文提出的方法要优于相应的基线模型。

7.针对人脸超分辨率的超身份同一性卷积神经网络模型

Super-Identity Convolutional Neural Network for Face Hallucination

该论文由腾讯AI Lab与香港中文大学、德克萨斯州大学奥斯汀分校等合作完成。人脸超分辨率是解决利用低分辨率人脸图像生成高分辨率人脸图像的生成式任务,同时需要考虑到人的面部感观非常依赖身份信息。然而,先前的人脸超分辨率方法忽略了对面部身份信息的恢复。本文提出了超身份同一性卷积神经网络(SICNN)来恢复身份同一性,以便于生成接近真实身份的超分辨率人脸图像。具体地,研究者在超球面的身份度量空间定义一个超身份同一性损失,用于衡量生成图像和真实高分辨率图像的身份差异性。然而,直接使用这个损失将导致动态域不收敛问题,这是由真实高分辨率域与生成高分辨率域之间存在的较大间隔引起的。为了克服这一挑战,研究者提出了一个通过在这两个域之间构建鲁棒的身份度量约束的训练方法。大量的实验评估证明,相比之前最先进的方法,在具有挑战性的对12x14的人脸图像进行8倍超分辨率任务上,本文提出的SICNN方法取得了更优越的超分辨率可视效果。此外,SICNN方法显著提高了极低分辨率人脸图像的可识别性。

8.Bi-Real网络:具有更强表达能力的1-比特卷积神经网络及一种先进训练算法

Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm

该论文由腾讯AI Lab与香港科技大学、华中科技大学合作完成。本文研究了1-比特卷积神经网络,也即网络参数激活函数输出都是二值化。相对于标准的实数化网络,1-比特网络在存储空间和计算复杂度上具有很大的优势,但是其分类性能还相距甚远。为了缩小1-比特网络和实数化网络的性能差距,本文提出了一种新的1-比特网络,名为Bi-Real网络。其基本思想是通过一个残差结构,将网络训练过程中产生的实数化输出(即1-比特卷积层的输出,Sign激活函数的输入)与下一模块的输出结合,大幅度提高了网络的表征潜力,且没有增加额外的计算成本。为了更好地挖掘出Bi-Real网络的表征潜力,本文提出了全新的训练算法,包括三个具体的创新点:1)设计对Sign激活函数的更紧致可导估计函数;2)利用参数幅值相关的梯度来更新参数;3)设计更合适的实数化网络对Bi-Real网络进行初始化。本工作以残差神经网络为主干网络,设计了两种不同深度的Bi-Real网络,分别为18层和34层,并在ImageNet数据集上进行了测试,它们分别取得了56.4%和62.2%的top-1识别精度。相较于当前最先进的1-比特网络(即XNOR网络),Bi-Real网络取得了10%以上的相对精度提高。

9.基于多样性和随机性的图聚类方法的增量多图匹配

Incremental Multi-graph Matching via Diversity and Randomness based Graph Clustering

该论文由腾讯AI Lab与上海交通大学、亚利桑那州立大学合作完成。多图匹配涉及在多个图结构之间找到对应关系,现有方法主要通过一次性匹配全量的方式来求解该问题。然而,实际应用中,往往需要应对不断新增的图样本。这一需求促使本文提出了一个增量式的多图在线匹配方法。具体而言,通过分组内的样本多样性,我们对图样本进行分组,每次新的样本被归入某一分组,进行在线匹配,并将信息在不同分组间传递与更新。实验证明,我们的在线匹配方法在不明显牺牲精度的情形下,显著提高了计算效率。

10.Pixel2Mesh: 从单帧RGB图像生成三维网孔模型

Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images

该论文由腾讯AI Lab与复旦大学、普林斯顿大学、Intel Labs合作完成。本文提出了一种端到端的深度学习框架,可从单张彩色图片直接生成3D mesh。受深度神经网络特性的限制,以前的方法通常用volume或者point cloud表示三维形状,将它们转换为更易于使用的mesh并非易事。与现有方法不同,本文使用图卷积神经网络表示3D mesh,利用从输入图像中提取的特征逐步对椭球进行变形从而产生正确的几何形状。本文使用由粗到精的模式进行生成,使得整个变形过程更加稳定。此外,本文还定义了几种与mesh相关的损失函数捕捉不同级别的特性,以保证视觉上有吸引力并且物理上高重建精度。大量实验表明,本文的方法不仅定性上可以生成细节更加充分的mesh模型,而且定量上与当前最好的方法相比也实现了更高的重建精度。

11.针对行人重识别的姿态归一化的图像生成方法

Pose-Normalized Image Generation for Person Re-identification

该论文由腾讯AI Lab与复旦大学、伦敦玛丽皇后大学等合作完成。行人重识别问题通常面临两大主要的挑战:(1) 缺乏大量出现在多个监控视频下的行人训练数据;(2)需求在巨大姿态变化的数据中训练学习到对身份信息敏感、且具有视角不变性的特征。在本论文工作中,提出了一个全新的深度图像生成模型,通过生成逼真的特定姿态下的行人图片来解决上述两个难点。该模型基于对抗生成网络(GAN)进行改进,实现行人重识别问题中的行人姿态归一化目标,由此本文命名为姿态归一化对抗生成网络(PN-GAN)。具体地,研究者利用姿态归一化对抗生成网络生成额外不同姿态的行人图片,从中学习到一种新的具有姿态不变性的行人特征。大量实验结果表明该特征可以很好的与原始行人图片特征形成互补,从而提升行人重识别任务的准确度。更重要的是,在本论文中,考虑并提出了一种更具真实适用性的无监督学习问题,并且通过实验证明该模型在该问题下具有潜在的强大的泛化能力,即对于一个全新的行人重识别数据或行人监控网络,该模型可以在不进行任何微调训练的前提下取得较好的精度。

12.深入研究深度信息: 利用语意关联和关注度驱动损失函数进行单目深度估计

Look Deeper into Depth: Monocular Depth Estimation with Semantic Booster and Attention-Driven Loss

该论文由腾讯AI Lab与香港城市大学、美国伊利诺伊州大学香槟城分校合作完成。机器学习技术提升了单目图像的深度估计效果,研究者观察到在现有的训练数据中深度图像的像素值呈现出一个长尾分布。然而,大部分已有方法并未特别处理深度区域在图像中的分布不平衡问题,从而导致其模型在估计图像中远距离区域时性能受限。在本文中,研究者调研了长尾分布的特性,深入挖掘图像中远距离区域并提出一种由关注度驱动的损失函数来监督式的训练神经网络。除此之外,为了更好的利用图像的语义信息进行单目深度估计,研究者提出了一个协同网络从而自动的学习这两个任务的共通性。在关注度驱动的损失函数和协同网络的共同作用下,图像的深度估计和语义标注性能得到了相互提升。研究者在挑战性的室内数据库进行了实验,其结果表明本文提出的方法在单目深度估计和语义标注任务中取得了最优的效果。

13.针对语义分割和单目深度预测的联合任务递归学习

Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation

该论文由腾讯AI Lab与南京理工大学合作完成。本文提出了一种全新的联合任务递归学习的框架,用于联合解决语义分割和单目深度预测问题。该模型能依靠序列化的任务级别的相互作用递归地改善两个任务的结果。为了两个任务能相互促进,研究者将它们的相互作用嵌入到任务注意力模块(TAM)来自适应地增强两个任务的对应相关的模式特征。而且,为了让预测更可信,研究者通过显式连接之前的响应,将两个任务过去的学习经历传播到下一次网络预测。任务级别的相互作用序列最终演化成从粗到细的尺度递变,这样所需要的细节信息能够渐进式地重建出来。在NYU depth v2和SUN RGB-D两个数据集上的实验结果表明本文提出的方法能够取得最前沿的单目深度预测和图像语义分割结果。

14.模块化生成对抗网络

Modular Generative Adversarial Networks

该论文由腾讯AI Lab与英属哥伦比亚大学合作完成。现有多领域图像变换方法尝试用一个单一模型取得映射结果。然而,这些方法的可扩展性和鲁棒性有限。受模块网络启发,本文提出了一种含有多个可重复利用且兼容模块的多领域图像变换模型ModularGAN,来实现不同功能的图像变换。这些模块可同时训练,并且可以根据图像变换涉及的领域被选择来联合使用以组建不同结构的网络。这赋予ModularGAN优异的可扩展性用以变换图像到任意希望的领域。实验结果显示,该模型不仅展现出引人注目的视觉效果,并且能在多领域脸部特征迁移的任务上超过现有最优的方法。

15.基于单张图片的人像虚化效果生成

Rendering Portraitures from Monocular Camera and Beyond

该论文由腾讯AI Lab与清华大学、加州大学默赛德分校、英伟达合作完成。浅景深是摄影的一种艺术效果,通常需要单镜头反光相机和某些摄影技巧来产生这样的效果。最近,手机的双镜头被用来估计场景的深度,并模拟了肖像拍摄的效果。然而,这种技术不能应用到已经拍摄的照片上,而且对于拍摄对象与摄像机距离很近的人像拍摄应用中。本文中,提出了一种全自动方法实现单目照相机的肖像渲染。具体地,研究者首先利用卷积神经网络来估计一个输入图像的相对深度和肖像分割图。由于来自单张图片的初始分割结果通常较为粗糙且缺少细节,因此研究者进一步学习相邻像素间的相互关系来改进分割结果。通过改进的分割估计和深度结果,研究者利用条件随机场和抠像技术对图像进行模糊渲染。另外,研究者训练了空间变换的递归神经网络来加速渲染过程。大量实验验证,本文提出的方法相对现有方法具有更好的人像虚化效果。

16. 面向目标检测任务的深度特征金字塔再组合

Deep Feature Pyramid Reconfiguration for Object Detection

该论文由腾讯AI Lab与清华大学合作完成。目前最好的目标检测器大多通过特征金字塔来学习多尺度表示从而取得更高的检测精度。然而,当前特征金字塔的设计在如何整合不同尺度的语义信息方面仍然不够高效。为此,本文在调研当前主流特征金字塔方法的基础上把特征金字塔转换为特征的再组合过程,创造性地提出了一种高度非线性但是计算快速的结构将底层表示和高层语义特征进行整合。具体而言,该网络由两个模块组成:全局注意力和局部再组合。这两个模块分布能全局和局部地去在不同的空间和尺度上提取任务相关的特征。重要的是,这两个模块具有轻量级、可嵌入和可端到端训练的优点。在基于SSD的框架上,该模型取得里比原始模型及其他变体方法明显更好的检测精度,而且没有牺牲实时的处理速度。

17.弱监督下的区域提名网络和目标检测

Weakly Supervised Region Proposal Network and Object Detection

该论文由腾讯AI Lab与华中科技大学、德州大学阿灵顿分校、约翰斯·霍普金斯大学合作完成。基于卷积网络的区域提名生成方法(RPN)通过边框标注进行训练,是当前全监督目标检测器一个核心部分。然而弱监督目标检测器因为缺乏边框标注,所以没有得益于基于CNN的提名生成方法,而只能依赖传统的提名生成方法,例如选择性搜索法。这篇文章提出了一种只利用图片级的标注的区域提名网络,该网络由两个步骤组成。第一个步骤是通过探寻卷积网络的低层信息来评价滑动窗口的目标显著性;第二个步骤利用基于区域的卷积分类器来修正第一阶段所生成的提名边框。本文提出的网络适用于弱监督目标检测,可以嵌入到任意弱监督检测器,并共享卷积计算。在PASCAL VOC和ImageNet的检测数据集上的实验表明,此方法比其他弱监督检测方法高大约3%的平均识别率。

18.局部多样性要有多局部?以动态基础集合强化行列式点过程以及在有监督视频摘要中的应用

How Local is the Local Diversity? Reinforcing Sequential Determinantal Point Processes with Dynamic Ground Sets for Supervised Video Summarization

该论文由腾讯AI Lab与中佛罗里达大学、爱荷华大学合作完成。大量的视频内容和高观看频率呼唤自动的视频摘要算法,而这些算法的一个关键属性是能够对多样性建模。如果视频长达数小时——比如第一视角的视频一般都很冗长,则有必要对视频的局部多样性建模。局部多样性指的是对短时间片段的摘要是有多样性的,但是如果一些片段在视频中出现时间相距很远,则允许它们同时出现在摘要中——即使它们看起来相似。在本文中,提出了一种基于行列式点过程(SeqDPP)的新的概率模型,用于动态控制视频片段的时间跨度,并在该视频片段上施加局部多样性。研究者使SeqDPP能够主动学习如何从输入视频中推断局部多样性的局部范围。由此产生的模型对最大似然估计(MLE)类型的训练方法提出极大的挑战,同时也受到暴露偏差和不可微分的评估指标的影响。为了解决这些问题,研究者设计了一种强化学习算法来训练提出的模型。大量实验验证了该模型和新的学习算法优于以前的方法,尤其明显优于基于MLE的方法。

19.提高行列式点过程以及在有监督视频摘要中的应用

Improving Sequential Determinantal Point Processes for Supervised Video Summarization

该论文由腾讯AI Lab与中佛罗里达大学、麻省理工学院、爱荷华大学合作完成。现在制作视频比以往任何时候都容易。无处不在的视频数据已经成为信息发现和提取的重要来源,但计算的挑战也是无与伦比的。自动视频摘要已成为浏览、搜索、和索引可视内容的重要需求。本文采用时序行列式点过程(SeqDPPs)进行有监督的视频摘要,通过概率分布对多样性进行建模。研究者从两方面改进了这个模型。在学习方面,提出了一种大间距算法来解决SeqDPP中的暴露偏差问题。在建模方面,设计了一个新的概率分布,当它被集成到SeqDPP时,最终模型允许用户输入对摘要的期望长度。此外,还显著拓展了现有的视频摘要数据库:1)加入更多的第一视角的视频,2)收集高密度的用户注释,以及3)提高评估方案。研究者用该数据集进行了大量实验(总共约60小时的视频),并将该方法与几个现有方法进行了比较。

腾讯AI实验室
腾讯AI实验室

入门ECCV 2018
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

特征分解技术

线性代数中,特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。需要注意只有对可对角化矩阵才可以施以特征分解。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~