百度AI自研技术拿下6项竞赛冠军硬核支撑智感超清产品升级

百度在CVPR 2019、CVPR 2020拿下三个图像视频领域竞赛冠军后,百度自研的“图像超分辨技术”又一次在世界舞台上“傲视群雄”。

近日,百度在国际视觉领域顶会ECCV2020上展现了全球领先的AI技术实力,以自研的创新技术,百度包揽了AIM 2020 Real Image Super-Resolution Challenge全部3项冠军。截至目前,百度自研的SA-NAS和GP-NAS等自动化深度学习技术已在CVPR2019,CVPR2020,ECCV2020 等多个顶会workshop上,累计夺得6项世界第一,提交专利申请超过200余项,并已开始应用于不同领域,展示了百度在AI图像处理领域进军的最新成果。

其中,SA-NAS搜索方法是百度首次把NAS技术应用于图像降噪领域;GP-NAS搜索方法是百度首次把NAS技术应用于图像超分领域。首次尝试创新技术斩获国际顶级大赛冠军,这也是百度视觉AI技术实力经得起验证、领先全球的最好证明。

百度视觉AI处理技术持续领先全球

此次百度包揽AIM 2020Real Image Super-Resolution Challenge的3项冠军,含金量如何?

从会议规格来看,ECCV是世界计算机视觉顶级会议之一,每两年举办一场,与CVPR和ICCV并称计算机视觉领域三大会议,由此可以看出本次ECCV大会中AIM 2020 workshop上举办的Real Image Super-Resolution Challenge是国际顶级赛事,含金量极高。值得一提的是,此次竞赛主要聚焦图片和视频处理技术,参赛者也在不断挖掘相关领域的新趋势和进展,在学术界和工业界都有非常大的影响力。

从技术要求来看,所谓的图像超分辨技术指的是通过低分辨率图像还原出高分辨率图像,尽管很多模型在模拟数据集上会取得比较不错的效果,但真实图像的超分辨技术比模拟数据更具有挑战性。所以此项赛事对于参赛者的技术能力要求极高。

近年来,随着神经网络架构搜索(NAS,Neural Architecture Search)技术发展,有学者将NAS应用到图像超分领域,虽然在每秒浮点运算次数(Flops)和延时约束下,NAS模型取得了非常不错的结果,但这些模型相比人工设计的不受Flops约束的当前最佳模型,仍存在一定的性能差距。

此次AIM 2020 Real Image Super-Resolution Challenge更侧重于考核参赛者的当前最佳结果,百度自研的GP-NAS AutoDL技术,充分挖掘基于自研的多重残差网络在图像超分的应用潜力,在真实图像超分任务上取得当前最佳结果。

GP-NAS是百度自研的AutoDL算法,从贝叶斯角度来建模NAS,并为不同的搜索空间设计了定制化的高斯过程均值函数和核函数。基于GP-NAS的参数,可高效率预测搜索空间中任意模型结构的性能,从而模型结构自动搜索问题被转换为GP-NAS高斯过程参数估计问题。接下来,通过互信息最大化采样算法,可有效采样模型结构。根据采样网络的性能,有效地逐步更新GP-NAS参数的后验分布。基于估计出的GP-NAS参数,最终可以预测出满足特定延时约束的最优的模型结构。

(基于高斯过程的模型结构自动搜索GP-NAS的架构图)

基于GP-NAS,百度自研了用于图像恢复与增强的多重残差网络DRN。针对真实图像超分的应用场景,该网络利用残差模块内和模块间的多重链接学习不同维度的特征,并设计了基于特征通道、残差模块数和模块内卷积层数等超参的搜索空间。基于GP-NAS技术原理,可以预测搜索空间中任意模型结构的性能,并快速筛选多个模型结构差异化的多重残差模型用于模型融合来达到最佳的图像超分效果。

百度自研的用于图像恢复与增强的多重残差网络DRN的基本结构)

该模型在ECCV 2020 Real Image Super-Resolution Challenge的比赛结果,全部3项的PSNR和SSIM指标都排在第一位。

如此先进的视觉技术在生活中的应用效果如何?下图为基于GP-NAS的多重残差图像超分模型与双三次插值的效果对比图,可以看到,百度自研的GP-NAS技术让这个世界的美好更加清晰可见。

(GP-NAS图像超分模型效果对比图)

上述技术已经在实际场景中使用,智感超清等相关产品搭载该项技术,可对视频场景级别的画面复杂度进行智能分析,在视频转码中涉及的超分辨重建,画质增强等关键技术上发挥重要作用。 配合百度研发的AI驱动内容自适应转码技术, 动态分配最优编码参数,在同等画质下,码率更低,智感超清技术节省带宽成本和存储成本30%+。目前,智感超清在好看视频、全民小视频、百度贴吧等已全量上线,每日进行上千万转码任务,保证画面质量的同时,大大降低平台的带宽成本。

百度AI图像处理技术早已被世界认可

实际上,百度领先的视觉AI技术早已获得世界认可。今年6月,在全球计算机视觉顶会CVPR 2020上,百度斩获NTIRE(New Trends in Image Restoration and Enhancement)挑战赛的真实图像降噪赛道和视频质量映射赛道的两项冠军。

真实图像降噪赛道

图像降噪作为计算机视觉热门领域,在视频监控、无人驾驶、移动可穿戴设备、遥感及医学图像分析等领域应用广泛。对于NTIRE2020挑战赛的真实图像降噪赛道(Real Image Denoising rawRGB Track),其首要目标是去除或纠正图像上的噪声信息,百度最终以第一的成绩达成目标,夺得冠军。

百度拿下NTIRE2020挑战赛真实图像降噪赛道冠军)

针对该项竞赛,百度设计了多跳跃连接的密集残差模块学习不同分辨率下的特征表达,并通过创新性mosaic-stride模块提升rawRGB的降噪能力,同时使用分布式SA-NAS搜索最优的模型结构;其中,SA-NAS搜索方法是百度首次把NAS技术应用于图像降噪领域。

视频质量映射赛道

视频质量映射赛道(Video Quality Mapping—Track1: Supervised)关注图片视频底层视觉技术的关键问题。这一技术可有效提高视频质量,提升用户观看体验。百度凭借过硬的视觉技术和经验积累,取得了该赛道的冠军成绩。

百度拿下NTIRE2020挑战赛视频质量映射赛道冠军)

针对该赛道的问题,百度通过把现有EDVR模型思路与CNN网络结构DenseNet相结合,利用DenseNet提取视频的图片特征,融合CNN浅层与深层特征,从而实现更强的表达能力;EDVR模型则完成了视频帧之间信息交换,对齐帧间信息,实现信息共享与互补。

而更早前的2019年,百度也曾在 NTIRE 竞赛中的图像超分辨项目中强势夺冠。该比赛采用了全新拍摄的真实数据集(RealSR),百度视觉团队在 PSNR 和 SSIM 两项指标上均名列第一,同时提出极具创新性的 CDSR 超分模型,通过级联的方法逐步将图像从模糊变清晰。

据介绍,NTIRE(New Trends in Image Restoration and Enhancement)和AIM (Advances in Image Manipulation)是近年来计算机图像修复领域最具影响力的赛事,每年都会吸引大量的关注者和参赛者。而百度在这样极具影响力的大赛中屡屡夺冠,显示出百度大脑在视觉领域各个方向的长期积累、全面发力,更是百度大脑技术实力全球领先的强大佐证。此外,这些技术也已经应用于不同领域,帮助有智感超清需求的产品升级,为企业降本增效的同时,也能让人们感受到人工智能技术带来的红利,体验美好的人工智能时代。

产业ECCV 2020百度AI
相关数据
双三次插值技术

双三次插值,英文是Bicubic interpolation。 双三次插值是一种更加复杂的插值方式,它能创造出比双线性插值更平滑的图像边缘。双三次插值方法通常运用在一部分图像处理软件、打印机驱动程序和数码相机中,对原图像或原图像的某些区域进行放大。Adobe Photoshop CS 更为用户提供了两种不同的双三次插值方法:双三次插值平滑化和双三次插值锐化。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

核函数技术

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

高斯过程技术

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

遥感技术

遥感(remote sensing)是指非接触的、远距离的探测技术。一般指运用传感器/遥感器探测物体的电磁波辐射、反射特性。遥感通过遥感器这类对电磁波敏感的仪器,在远离目标和非接触目标物体条件下探测目标。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
暂无评论
暂无评论~