Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge

现有的深度边缘检测网络通常基于包含了上下采样模块的编码器 - 解码器架构,以更好的提取多层次的特征,但这也限制了网络输出既准又细的边缘检测结果。

针对这一问题,一篇 AAAI 2024 上的论文给出了新的解决方案。

图片

  • 论文题目:DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection

  • 作者:叶云帆(国防科技大学),徐凯(国防科技大学),黄雨行(国防科技大学),易任娇(国防科技大学),蔡志平(国防科技大学)

  • 论文链接: https://arxiv.org/abs/2401.02032

  • 开源代码: https://github.com/GuHuangAI/DiffusionEdge

国防科技大学 iGRAPE Lab 提出了首个用于二维边缘检测任务的扩散概率模型方法,通过学习迭代的去噪过程获得边缘结果图,去噪过程如图 1 所示。为了在保留最终性能的同时减少计算资源的消耗,该方法在隐空间中训练网络,并引入了不确定性蒸馏模块以更好的优化。同时,本方法还采用解耦架构来加速去噪过程,并提出了相应的自适应傅立叶滤波器来调整特征。基于这些设计,本方法得以用有限的资源进行稳定的训练,用更少的增强策略来预测清晰准确的边缘图。在四个公共基准数据集上的大量实验表明,本文提出的方法在准确度和粗细度上全面超越了其他方法。

图片

图 1 基于扩散概率模型的边缘检测过程与优势示例

本文的创新点包括:

1、提出了领域内第一个针对边缘检测任务的扩散模型 DiffusionEdge,无需任何后处理即可预测出更细更准确的边缘图。

2、针对扩散模型应用时的难点,设计了多种技术以确保方法能在隐空间中稳定学习,同时保留像素级的不确定性先验知识并自适应地过滤傅立叶空间中的隐特征。

3、在四个边缘检测公共基准数据集上开展的大量对比实验展示了 DiffusionEdge 在准确度和细度方面均具有卓越的性能优势。

相关工作

基于深度学习的方法通常采用包含上下采样的编解码结构集成多层特征 [1-2],或是整合多个标注的不确定性信息以提升边缘检测的准确度 [3]。然而,天然受限于这样的结构,其生成的边缘结果图对于下游任务来说太过粗厚而严重依赖后处理的问题仍然亟待解决。尽管许多工作已经在损失函数 [4-5] 和标签修正策略 [6] 方面做出了探索以使网络能输出更细的边缘,但本文认为该领域仍然需要一个可以不借助任何额外模块,就能直接满足准确度和细度的边缘检测器,而无需任何后处理步骤。

扩散模型是一类基于马尔可夫链生成模型,通过学习去噪过程逐渐恢复目标数据样本。扩散模型在计算机视觉自然语言处理和音频生成等领域都表现出了卓越的性能。不仅如此,通过将图像或是其他模态的输入作为额外条件时,其在感知任务中也表现出了巨大的潜力,例如图像分割 [7]、目标检测 [8] 和姿态估计 [9] 等。

方法描述

本文所提出的 DiffusionEdge 方法总体框架如图 2 所示。受以往工作的启发,该方法在隐空间中训练具有解耦结构的扩散模型,并将图像作为额外的条件线索输入。该方法引入了自适应傅里叶滤波器来进行频率解析,且为了保留来自多个标注者的像素级不确定性信息并减少对计算资源的要求,还以蒸馏的方式直接使用交叉熵损失优化隐空间。

图片

图 2 DiffusionEdge 的整体结构示意

针对目前的扩散模型受到采样步数太多,推理时间太长等问题的困扰,本方法受 DDM [10] 的启发,同样使用解耦的扩散模型架构来加速采样推理过程。其中,解耦的前向扩散过程由显式的转移概率和标准 Wiener 过程的组合来控制:

图片其中图片图片分别代表初始边缘和噪声边缘,图片指的是反向边缘梯度的显式转换函数。与 DDM 类似,本文方法默认使用常量函数图片,则其相应的逆过程可以被表示为:

图片其中图片。为了训练解耦的扩散模型,该方法需要同时监督数据和噪声分量,因此,训练目标可以被参数化为:

图片其中图片是去噪网络中的参数。由于扩散模型如果要在原始图像空间中训练的话会占用太多的计算成本,因此参考 [11] 的思路,本文提出的方法将训练过程转移到了具有 4 倍下采样空间大小的隐空间中。

如图 2 所示,该方法首先训练了一对自编码器和解码器的网络,该编码器将边缘标注压缩为一个隐变量,而解码器则用于从这个隐变量中恢复出原来的边缘标注。如此一来,在训练基于 U-Net 结构的去噪网络阶段,该方法便固定这一对自编码和解码器网络的权重,并在隐空间中训练去噪过程,这样可以大幅减少网络对计算资源的消耗,同时维持不错的性能。

为了提升网络最后的性能,本文提出的方法在解耦操作中引入了一种可以自适应地过滤掉不同频率特征的模块。如图 2 左下角所示,该方法将自适应的快速傅立叶变换滤波器(Adaptive FFT-filter)集成到了去噪 Unet 网络中,位置在解耦操作之前,以在频域中自适应过滤并分离出边缘图和噪声分量。具体来说,给定编码器特征 图片 ,该方法首先沿空间维度执行二维的傅里叶变换(FFT),并将变换后的特征表示为 图片 。紧接着,为了训练这个自适应频谱滤波模块,构造了一个可学习的权重图片 并将其W乘以Fc。频谱滤波器可以全局地调整特定频率,并且学习到的权重可以适应不同数据集目标分布的不同频率情况。通过自适应地滤除无用成分,本方法通过快速傅里叶逆变换(IFFT)操作将特征从频域映射回空间域。最后,通过额外引入了来自的残差连接,避免完全过滤掉了所有有用的信息。上述过程可以由以下公式来描述:

图片其中图片是输出特征,o表示哈达玛积(Hadamard Product)。

由于边缘和非边缘像素的数量高度不平衡(大多数像素都是非边缘的背景),参考以往的工作,我们同样引入不确定性感知损失函数进行训练。具体来说,将作为第i个像素的真值边缘概率,对于第j个边缘图中的第i个像素,其值为图片,则不确定性感知 WCE 损失的计算方式如下:

图片

其中图片,其中图片是决定真值标注中不确定的边缘像素的阈值,如果像素值大于 0 而小于此阈值,则此类模糊的,置信度不够高的像素样本将在后续的优化过程中被忽略(损失函数为 0)。图片图片分别表示真值标注边缘图中边缘和非边缘像素的数量。是用来平衡图片图片权重(设为 1.1)。因此,每个边缘图的最终损失函数计算方式为图片

在优化过程中忽略模糊的低置信度的像素可以避免网络混乱,使训练过程更稳定的收敛,并提高模型的表现。然而,将二元交叉熵损失直接应用于在数值和空间上均未对齐的隐空间中是几乎不可能的。尤其是,不确定性感知交叉熵损失中利用阈值图片(一般从 0 到 1)来判断像素是否为边缘,这是从图像空间上定义的,而隐变量遵循正态分布并且具有完全不同的范围和实际意义。此外,像素级的不确定性很难与不同大小的编码和下采样的隐特征保持一致,二者是很难直接兼容的。因此,将交叉熵损失直接应用于优化隐变量不可避免地会导致不正确的不确定性感知

另一方面,人们可以选择将隐变量解码回图像级别,从而可以直接使用不确定性感知交叉熵损失来直接监督预测出的边缘结果图。不幸的是,这种实现让反向传播的参数梯度通过了冗余的自编码器网络,使得梯度很难得到有效的传递。此外,自编码器网络中额外的梯度计算会带来巨大的 GPU 内存消耗成本,这违背了本方法设计一个实用的边缘检测器的初衷,很难推广到实际应用中。因此,本方法提出了不确定性蒸馏损失,可以直接优化隐空间上的梯度,具体来说,设重构出的隐变量图片,自编码器网络的解码器是D,解码出的边缘结果是eD,本方法考虑基于链式法则直接计算不确定性感知的二元交叉熵损失图片的梯度,具体计算方式为:

图片

为了消除自编码器网络的负面影响,本方法直接跳过了自编码器图片传递梯度并将梯度图片的计算方式修改调整为:

图片

这样的实现方式大大降低了计算成本,并允许利用不确定性感知损失函数直接在隐变量上优化。如此一来,再结合一个随步数t自适应变化的时变损失权重图片,本方法最终训练优化目标可以被表示为:

图片

实验结果

本方法在四个领域内被广泛使用的边缘检测公共标准数据集上进行了实验:BSDS、NYUDv2、Multicue 和 BIPED。由于边缘检测数据标注比较难,标注数据量都比较少,以往的方法通常会使用各种策略来增强数据集。例如说,BSDS 中的图像通过水平翻转 (2×)、缩放 (3×) 和旋转 (16×) 进行增强,能够生成比原始版本扩大了 96 倍的训练集。以往的方法在其他数据集上使用的通用增强策略总结在了表格 1 中,其中 F 代表水平翻转,S 代表缩放,R 代表旋转,C 代表裁剪,G 代表伽马校正。不同的是,本方法仅需要使用随机裁剪的 320320 的图像块来训练所有数据。在 BSDS 数据集中,本方法则仅仅采用随机的翻转和缩放,其定量对比结果展示在了表 2 中。在 NYUDv2、Mu lticue 和 BIPED 数据集中,该方法仅需采用随机翻转训练。在使用更少增强策略的情况下,本方法在各个数据集,各个指标上的表现都优于之前的方法。通过观察图 3-5 的预测结果可以看出,DiffusionEdge 能够学习并预测出跟 gt 分布几乎一样的边缘检测结果图来,预测结果准确而清晰的优势对于有精细化需求的下游任务来说非常重要,也展示了其能直接应用于后续任务的巨大潜力。

图片

                                 表 1 以往方法在四个边缘检测数据集上使用的增强策略

图片

                     表 2 不同方法在 BSDS 数据集上的定量对比

图片

                                图 3 不同方法在 BSDS 数据集上的定性对比图片

                                图 4 不同方法在 NYUDv2 数据集上的定性对比

图片

                                图 5 不同方法在 BIPED 数据集上的定性对比

1. 参考文献

[1] Xie, S., & Tu, Z. (2015). Holistically-nested edge detection. In Proceedings of the IEEE international conference on computer vision (pp. 1395-1403).

[2] Liu, Y., Cheng, M. M., Hu, X., Wang, K., & Bai, X. (2017). Richer convolutional features for edge detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3000-3009).

[3] Zhou, C., Huang, Y., Pu, M., Guan, Q., Huang, L., & Ling, H. (2023). The Treasure Beneath Multiple Annotations: An Uncertainty-aware Edge Detector. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 15507-15517).

[4] Deng, R., Shen, C., Liu, S., Wang, H., & Liu, X. (2018). Learning to predict crisp boundaries. In Proceedings of the European conference on computer vision (ECCV) (pp. 562-578).

[5] Huan, L., Xue, N., Zheng, X., He, W., Gong, J., & Xia, G. S. (2021). Unmixing convolutional features for crisp edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44 (10), 6602-6609.

[6] Ye, Y., Yi, R., Gao, Z., Cai, Z., & Xu, K. (2023). Delving into Crispness: Guided Label Refinement for Crisp Edge Detection. IEEE Transactions on Image Processing.

[7] Brempong, E. A., Kornblith, S., Chen, T., Parmar, N., Minderer, M., & Norouzi, M. (2022). Denoising pretraining for semantic segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4175-4186).

[8] Chen, S., Sun, P., Song, Y., & Luo, P. (2023). Diffusiondet: Diffusion model for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 19830-19843).

[9] Wang, J., Rupprecht, C., & Novotny, D. (2023). Posediffusion: Solving pose estimation via diffusion-aided bundle adjustment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9773-9783).

[10] Huang, Y., Qin, Z., Liu, X., & Xu, K. (2023). Decoupled Diffusion Models with Explicit Transition Probability. arXiv preprint arXiv:2306.13720.

[11] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10684-10695).

工程国防科技大学AAAI 2024
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

边缘概率技术

边缘概率又称边缘分布,指在多维随机变量中,只包含部分变量的概率分布,边缘分布中实际上进行了降维操作。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

傅里叶变换技术

傅里叶变换(法语:Transformation de Fourier、英语:Fourier transform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换,在物理学和工程学中有许多应用。因其基本思想首先由法国学者约瑟夫·傅里叶系统地提出,所以以其名字来命名以示纪念。实际上傅里叶变换就像化学分析,确定物质的基本成分;信号来自自然界,也可对其进行分析,确定其基本成分。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

链式法则技术

是求复合函数导数的一个法则, 是微积分中最重要的法则之一。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

马尔可夫链技术

马尔可夫链,又称离散时间马尔可夫链,因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

推荐文章
暂无评论
暂无评论~