Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

再破纪录!ECCV 2020 旷视研究院15篇成果总览

图:ECCV 2020 词云分析结果8月23-28日,全球计算机视觉三大顶会之一,两年一度的 ECCV 2020(欧洲计算机视觉国际会议)即将召开。受到疫情影响,今年的 ECCV 将以线上形式举办。据官方统计,本次大会有效投稿5025篇,其中有1361篇被接收,录用率为27%,较上届31.8%有所下降。其中,Oral 论文104篇(占总投稿数2%),Spotlight 论文161篇(本届新增,占总投稿数5%),其余为 Poster。

图:ECCV 近三届投稿数据
旷视研究院在本届大会共有 15 篇成果入选,Oral 论文 2 篇与 Spotlight 论文 1 篇,刷新上届入选 10篇的记录!

旷视研究院本届被接收工作涉及图像检测、图像对齐、姿态估计激活函数、CNN架构设计、动态网络、NAS、知识蒸馏、点云配准、细粒度图像检索、迁移学习、机器人等多个领域。为了能够及时与学界、业界同仁进行交流与分享,后文对全部工作进行了介绍,并附上目前已经放出的论文地址与开源地址。

这样的战绩不仅反映出旷视研究院在学术与产业前沿技术研究上的实力,也从侧面印证了旷视多年来构建的务实、高效的产学研体系所具备的价值:做源自产业的学术研究、解制约当前发展的关键技术、理论瓶颈

另外,为了让读者对本届大会以及近年来CV领域关注的热点研究方向有一个直观把握,我们也对近三年来世界三大CV顶会入选论文的标题进行了热点词分析,通过对比ECCV 2020和CVPR 2020、ICCV 2019、CVPR 2019、ECCV 2018的结果,大家可以一窥领域内关注的重点在近年来发生的变化,以及大家持续深耕的热点问题。
 
需要说明的是,由于CVPR会议交稿截止日期是在大会举办前1年(即CVPR 2020的文章是2019年提交的),因此在对比中我们将ICCV 2019与CVPR 2020进行对比,将CVPR 2019与ECCV 2018进行对比,进一步再用ECCV 2020与2019年和2018年的数据进行综合对比。
图:近三年世界三大CV顶会(CVPR、ECCV、ICCV)论文热点词对比
可以发现,近年来持续热门的领域包括3D视觉、分类/检测/分割、人脸识别/人体姿态/动作识别、视频理解、图像超分辨率等等。采用的热门方法有模型自动搜索、注意力机制、无/半/自监督表示学习、对抗学习、知识蒸馏等多种方法。

监督学习、动态网络、神经网络动力学等多个领域因其巨大的学术和产业价值,在近来获得了越来越多地突破与关注,CV研究在深度学习基础研究的加持之下,茁壮向前发展。

后续我们也会启动“10分钟带你看ECCV”系列论文视频解读,邀请旷视研究院本次入选论文作者分别就其工作进行视频分享,欢迎感兴趣的同学持续关注旷视研究院后续内容。
 
值得一提的是,本次旷视研究院入选ECCV的部分工作使用旷视天元(MegEngine)深度学习框架进行开源。天元(MegEngine)是旷视自研,并在内部经过6年全员使用、打磨的工业级深度学习框架,其诞生之初的设计理念便直指从科研成果到大规模产品应用的高效转化。
 
作为一款训练推理一体化的框架,天元(MegEngine)能够帮助企业与开发者的产品从实验室原型到工业部署的时间成本大幅缩减,真正实现小时级的转化能力。

欢迎访问

  • MegEngine WebSite:
    https://megengine.org.cn
  • MegEngine GitHub(欢迎Star):
    https://github.com/MegEngine

旷视研究院 ECCV 2020 论文总览

01

Oral 论文:BorderDet: Border Feature for Dense Object Detection
论文链接:https://arxiv.org/pdf/2007.11056v1.pdf
论文代码:https://github.com/Megvii-BaseDetection/BorderDet
关键词:物体检测、边界特征

在物体检测领域,检测器一般会通过滑窗的方式来预测图像网格上的物体,并且还会使用网格中特征点的特征图来生成边界框的预测结果。其中的问题在于,虽然这些点的特征使用起来十分方便,但它们往往可能缺乏有用的边界信息,从而不利于进行精准地定位。因此,本文提出一个简单、高效的操作“BorderAlign”来提取物体边界极限点的特征。

基于BorderAlign,旷视研究院还设计了一个全新的检测框架“BorderDet”。它可以很好地利用边界信息,实现更强大的分类与更精准的定位效果。在ResNet-50 backbone下,模型只增加很少的时间开销,就可以在单阶段检测器FCOS上实现 2.8 AP的性能提升(38.6 v.s. 41.4);在ResNeXt-101-DCN backbone下,本文提出的BorderDet获得50.3 AP,显著超越现有最佳方法。

02 

Oral 论文:Content-Aware Unsupervised Deep Homography Estimation
论文链接:https://arxiv.org/pdf/1909.05983.pdf
论文代码:https://github.com/JirongZhang/DeepHomography
关键词:Homography变换、深度Homography、图像对齐、RANSAC

Homography估计是目前众多图像对齐应用中都会使用到的基本对齐方法。一般而言,它通过提取并匹配稀疏特征点来实现,不过这样的机制在面对暗光和缺少纹理的场景时效果不理想。另外,考虑到当前的深度Homography方法在监督学习下会用到合成数据,在无监督学习下会使用视差较小的航拍图并且全图计算损失,这两种方案都忽略了真实世界应用当中来自深度视差与移动物体的重要影响。


因此,在本文中旷视研究院提出一种新型架构的无监督深度homography方法以克服上述问题。具体而言,受到传统方法中RANSAC过程的启发,研究人员提出通过学习一个mask来专门选择可靠的区域以进行homography估计。在损失的计算上,文章根据深度特征而不是之前通过直接比较图像内容的方式来进行。为了实现无监督学习,研究人员还针对网络设计了一个全新的triplet损失。在不同场景数据的实验结果显示,本文方法较最先进的深度方法与基于特征的方法都更为优越。

03 

Spotlight 论文:Learning Delicate Local Representations for Multi-Person Pose Estimation
论文链接:https://arxiv.org/abs/2003.04030
论文代码:https://github.com/caiyuanhao1998/RSN/
关键词:人体姿态估计、COCO、MPII、特征聚合、注意力机制

在利用特征融合进行人体关键点检测的现有工作中,人们多以inter-level的特征融合为基本策略,而没有考虑intra-level特征融合能带来的丰富空间信息。为此在本文中,旷视研究院提出一个全新方法,残差阶梯网络(Residual Steps Network, RSN)。RSN能聚合同一网络阶段输出的特征(inta-level 特征),以获得精准的局部特征表示,该表示保留了丰富的低层空间信息,能够助力网络实现精确的关键点定位。
此外,研究人员还提出一个高效的注意力机制——姿态修正机(Pose Refine Machine),它能够在输出特征上平衡局部与全局表示,进一步修正关键点定位效果。本文方法在2019 COCO关键点检测任务上夺冠,在无额外数据与预训练模型的情况下,在COCO与MPII基准数据集上均取得了最佳效果。

04 

论文题目:Funnel Activation for Visual Recognition
论文链接:https://arxiv.org/abs/2007.11824
MegEngine开源:https://github.com/megvii-model/FunnelAct
关键词:funnel 激活函数、视觉识别、CNN

本文在激活函数领域进行了创新,提出一种在视觉任务上大幅超越ReLU的新型激活函数Funnel actication(FReLU),简单又高效。

具体而言,旷视研究院通过增加可忽略的空间条件开销将ReLU和PReLU扩展为2D激活函数。ReLU和PReLU分别表示为y = max(x,0)和y = max(x,px)的形式,而FReLU的形式为y = max(x,T(x)),其中T(·)是二维空间条件(2D spatial condition)。

此外,空间条件以简单的方式实现了像素级建模能力,并通过常规卷积捕获了复杂的视觉layouts。最后,对ImageNet数据集、COCO数据集检测任务和语义分割任务进行了实验,展示了FReLU激活函数在视觉识别任务中的巨大改进和鲁棒性。

05 

论文题目:WeightNet: Revisiting the Design Space of Weight Networks
论文链接:https://arxiv.org/abs/2007.11823
MegEngine开源:https://github.com/megvii-model/WeightNet
关键词:CNN架构设计、权重生成网络、动态滤波器

本文提出一个灵活高效的权重生成网络框架,称为WeightNet。将SENet与CondConv这两种独立且非常有效的方法纳入到同一框架中,是一种通用方法。WeightNet通过在注意力激活层上添加一层分组全连接层(group fully-connected layer)从而实现了对这两种方案的统一。


WeightNet可以直接输出卷积权重,同时在kernel空间(而非特征空间)上训练起来既简单内存消耗又少。凭借其灵活性,该方法在ImageNet和COCO的检测任务上均超越了现有方法,取得了更好的准确率-FLOPs和准确率-参数平衡。

06

论文题目:Angle-based Search Space Shrinking for Neural Architecture Search
论文链接:https://arxiv.org/abs/2004.13431
论文代码:https://github.com/megvii-model/AngleNAS
关键词:NAS、angle、搜索空间裁剪

在本文中,旷视研究院提出了一个简单且通用的搜索空间裁剪方法,angle-based 搜索空间裁剪方法(ABS)。ABS通过删除潜力差的结构来逐步裁剪原始搜索空间。现有NAS方法使用裁剪后的搜索空间能够降低搜索难度和资源消耗,同时找到更优的结构。

具体而言,研究人员提出了一种基于角度的新性能衡量指标来指导搜索空间裁剪。一系列详尽的实验显示,在共享权重的超网络中对子模型进行性能排序时,该指标比使用accuracy-based 和magnitude-based的指标更加稳定且一致性更高。此外,angle-based指标在训练超网络时收敛也更快,能够帮助研究人员高效地得到缩小的搜索空间。ABS可以十分方便地应用于大多数NAS方法,且提升效果显著。

07

论文题目:LabelEnc: A New Intermediate Supervision Method for Object Detection
论文链接:https://arxiv.org/abs/2007.03282
论文代码:https://github.com/megvii-model/LabelEnc
关键词:物体检测、辅助监督、自编码器

旷视研究院在本文中提出一种新型的中间监督方法,LableEnc,以提升物体检测系统的训练效果。该方案的关键创新点是引入了一个全新的标签编码函数,将ground-truth标签映射到潜在嵌入空间上,作为辅助backbone进行训练的中间监督信息。

本文方法主要涉及2阶段训练步骤。首先,通过一个在标签空间上定义的自编码器来优化标签编码函数,以达到获得关于物体检测器的理想中间表示的目的。然后,利用习得标签编码函数,研究人员引入了一个新设计的辅助损失,连接在检测backbone上,可以提升后面检测器的性能。
在COCO的实验结果显示,本文方法具有很强的通用性,它在多种检测系统上都实现了约2%的性能提升,无论该系统是单阶段还是双阶段架构。另外,本文的辅助结构仅仅在训练过程中存在,这也即是说,它完全不会影响推理时候的开销。

08
 
论文题目:Single Path One-Shot Neural Architecture Search with Uniform Sampling
论文链接:https://arxiv.org/abs/1904.00420
论文代码:https://github.com/megvii-model/ShuffleNet-Series
关键词:NAS、一步法、超网络

一步法(One-Shot)是一个强大的神经网络模型搜索(Neural Architecture Search/NAS)框架,但是它的训练相对复杂,并且很难在大型数据集(比如 ImageNet)上取得较有竞争力的结果。在本文中,旷视研究院提出一个单路径 One-Shot 模型,以解决训练过程中面对的主要挑战,其核心思想是构建一个简化的超网络——单路径超网络(Single Path Supernet),这个网络按照均匀的路径采样方法进行训练。
所有子结构(及其权重)获得充分而平等的训练。基于这个已训练的超网络,可以通过进化算法快速地搜索最优子结构,其中无需对任何子结构进行微调。

对比实验证明了这一方法的灵活性和有效性,不仅易于训练和快速搜索,并且可以轻松支持不同的复杂搜索空间(比如构造单元,通道数,混合精度量化)和搜索约束(比如 FLOPs,速度),从而便于满足多种需求。这一方法在大型数据集 ImageNet 上取得了当前最优结果。

09 

论文题目:Iterative Distance-Aware Similarity Matrix Convolution with Mutual-Supervised Point Elimination for Efficient Point Cloud Registration
论文链接:https://arxiv.org/abs/1910.10328
论文代码:https://github.com/jiahaowork/idam
关键词:点云配准

本文提出了一种基于学习的全局点云匹配算法IDAM。该算法的输入是一组点云对,在提取几何特征与距离特征后送入迭代相似性矩阵卷积模块(similarity matrix convolution),可以获取点云对之间的3d刚体变换矩阵完成匹配。

为了降低计算成本和减少点对误匹配,提出了hard point elimination和hybrid point elimination两种可学习的点云下采样方式来选取重要点,它们通过互监督损失(mutual-supervision loss)进行训练,不需要人为对点进行任何标注。
该算法可以很方便的和传统或者基于学习的点云特征进行结合。在ModelNet40数据集上,本文将IDAM与多种传统点云匹配算法和其他基于学习的点云匹配算法进行了实验对比。结果表明,IDAM在匹配的精度和速度上,都有很大的优势,且对于部分重叠或受噪声影响点云对的匹配鲁棒性和未见过点云模型的泛化能力都很强大。

10

论文题目:Prime-Aware Adaptive Distillation
论文链接:https://arxiv.org/abs/2008.01458
关键词:知识蒸馏、自适应样本加权、不确定性学习

本文在知识蒸馏中探究了“哪一个样本更重要”问题,即蒸馏中的自适应样本加权。以往蒸馏方法对所有样本一视同仁,我们发现蒸馏中对简单样本赋予更大权重会提升学生模型的性能。
进一步,旷视研究院团队结合不确定性学习理论,提出一种能自动感知最优样本并自适应对其加大权重的方法:PAD。PAD不引入额外超参,可轻松与现有蒸馏方法相结合。在分类,度量学习和检测三大任务,总共六个数据集上,PAD进一步提升了知识蒸馏的性能,取得了SOTA的结果。

11

论文题目:Hierarchical context embedding for region-based object detection
论文链接:https://arxiv.org/abs/2008.01338
关键词:物体检测、语境嵌入、Region-based CNN

在这项工作中,旷视南京研究院对目前两阶段检测网络进行了创新,提出利用context信息来提高检测网络的分类能力。
具体而言,旷视南京研究院提出的方法包含了三个模块:
  • Image-Level Categorical Embedding

  • Hierarchical Contextual RoI Feature Generation

  • Early-and-Late Fusion


Image-Level Categorical Embedding模块通过Multi-Label Loss来学习出带有context信息的特征;Hierarchical Contextual RoI Feature Generation利用上述带有context信息的特征和RoI Align操作来产生带有context信息的RoI特征;Early-and-Late Fusion模块把带有context信息的RoI特征和原本检测网络的RoI特征进行融合,最终提高检测器的分类能力。

在FPN、Mask R-CNN和Cascade R-CNN上的实验结果表明,这个方法能有效提高上述主流检测器框架的性能。

12 

论文题目:ExchNet: A Unified Hashing Network for Large-Scale Fine-Grained Image Retrieval
论文链接:https://arxiv.org/abs/2008.01369
关键词:细粒度图像检索; Learning to Hash; 特征对齐; 大规模图像搜索.

本文尝试解决的是细粒度哈希问题,通过为细粒度图片生成二值码,进而加速细粒度图片的检索过程。在文章中,旷视研究院提出了一种名为ExchNet的网络,它首先基于注意力机制捕捉图片的全局和局部特征,接着使用本文提出的一种基于特征交换的方法对局部特征进行对齐,最后融合全局和局部特征生成二值码。

文章最大的创新点在于特征对齐方法,基于如下的假设「对于两张同类鸟的图片,交换对应part的局部特征(如图1的翅膀和图2的翅膀),不影响这两张图片二值码的生成以及他们的相似性」,我们在训练过程中会交换同类样本的局部特征,同时保证同类样本二值码的相似性,进而达到隐式的特征对齐目的。


13 

论文题目:Spherical Feature Transform for Deep Metric Learning
论文链接:https://arxiv.org/abs/2008.01469
关键词:数据增强、迁移学习

本文在迁移学习领域进行了创新。提出一种在归一化后的特征空间通过迁移进行数据增强的方法,简单且有效。

具体而言,传统的在特征空间内做迁移学习的方法假设不同类别的特征服从方差相同的高斯分布。如果定义特征的“偏移量”为特征向量与类别均值向量的差值,传统迁移的方法简单地把“偏移量”叠加到另一个类别的均值上。

本文发现,当特征被归一化后,即被约束到超球面上后,传统的迁移方法无论是基本假设还是迁移的方法都已经不成立。基于directional statistics,本文改进原有的“相同方差”假设为更符合球面分布特性的“相似方差”,进而提出了更general的spherical feature transform用于超球面上的特征迁移学习,并且本文还证明了传统的方法是本文提出方法的一种特例。最后,本文对所提出的迁移方法在人脸识别度量学习等数据集上进行了大量的实验和分析,展现了所提出方法的有效性。

14

论文题目:Differentiable Feature Aggregation Search for Knowledge Distillation
论文链接:https://arxiv.org/abs/2008.00506
关键词:知识蒸馏、特征聚合、可微分架构搜索

在模型压缩领域,知识蒸馏技术近年来扮演者愈发重要的角色。它能够在teacher-student框架中,将复杂、学习能力强的网络学到的特征表示“知识”蒸馏出来,传递给参数量小、学习能力弱的网络,从而极大提升学生网络的性能,经济又高效。近期主流的工作为了提升学生网络的性能,多采用多教师监督的蒸馏技术,导致需要消耗大量计算资源。
为了平衡效率与性能,旷视研究院在本工作中提出DFA,一个2阶段可微特征聚合搜索方法,来在单教师知识蒸馏框架下模拟多教师蒸馏。在CIFAR-100和CINIC-10上的实验结果显示,DFA显著超越了现有蒸馏方法。

15

论文题目:TP-LSD: Tri-Points Based Line Segment Detector
关键词:直线段检测、一阶段、Tri-Points表示法

对复杂环境进行高效描述是计算机视觉感知的一个重要问题。考虑到人工环境里存在很多平面,因此其相关直线段(line segment)的表示就能够很好地助力系统对环境结构的编码,从而为上游计算机视觉应用提供重要信息,如消失关键点检测、3D结构重建、姿态检测等。
在本工作中,相对于业内大多数使用的二阶段检测器,旷视研究院提出一个更快、更小的一阶段直线段检测器,它基于Tri-Points(TP)表示来编码直线段,能够在准确率与当前领先方法匹敌的情况下,实现对图像的实时检测,在320×320的输入上FPS可达到78。
PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论旷视研究院ECCV 2020
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

图像搜索技术

图像搜索是通过搜索图像文本或者视觉特征,为用户提供互联网上相关图像资料检索服务的专业搜索引擎系统,是搜索引擎的一种细分。图像搜索方法一般有两种:通过输入与图片名称或内容相似的关键字来进行检索;或者通过上传与搜索结果相似的图片或图片URL进行搜索。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

姿态检测技术

姿态检测是指主体对主要行为者提出的主张的反应。它是假新闻评估的一套方法的核心部分。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

线段检测技术

线段检测的任务是在图像中检测标注构成线条的像素。

人体关键点检测技术

人体关键点检测(Human Keypoint Detection)又称为人体姿态识别,旨在准确定位图像之中人体关节点的位置,是人体动作识别、人体行为分析、人机交互的前置任务。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~