Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

华为诺亚&清华:基于认知的万物超分大模型CoSeR

从低清图像中提取认知特征,这样的超分辨率才更真实。

图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。随着超分技术的发展和手机硬件性能的提升,人们期望拍摄出更加清晰的照片。这项技术在手机影像等领域有着广泛的应用和需求。

然而,现有的超分方法存在一些局限性,如下图所示,主要有以下两个方面:

  • 一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图像和高清图像间的映射,但在其他场景下表现不佳。此外,逐场景训练的方式计算成本较高,不利于模型的部署和更新。

  • 二是缺乏理解能力。现有的超分方法主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法利用常识来准确恢复物体的结构和纹理。

图片

图 2. 真实场景超分 SOTA 方法的局限性:(行一)难以处理训练集外的退化分布;(行二)难以利用常识恢复物体结构。

人类在处理信息时,有两种不同的认知反馈系统。诺贝尔奖经济学得主丹尼尔・卡尔曼在《思考,快与慢》中将它们称为系统一和系统二,如图 3 所示。

系统一是快速的、直觉的、基于记忆的反馈,比如,我们可以脱口而出十以内的加减运算。系统二是缓慢的、多步的反馈,比如,28x39 往往需要逐步运算。现有的超分方法更贴近系统一,它们主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法按照常识来准确恢复物体的结构和纹理,也无法处理域外的退化情况。

图片

图 3. CoSeR 采用类似于人脑中系统二的修复方式。

近日,由清华大学华为诺亚方舟实验室、香港科技大学等机构提出的研究,通过将图像外观和语言理解结合起来生成认知特征,实现了认知超分辨率框架,使 SR 模型能够理解低分辨率图像。

本文认为,真正能有效应用于真实场景的画质大模型应该具备类似系统二的多步修复能力,即基于对图像内容的认知,结合先验知识来实现图像超分(Cognitive Super-Resolution,CoSeR)。

图片

项目主页:https://coser-main.github.io/

ArXiv:https://arxiv.org/abs/2311.16512

图片

图 1.  LR,GR 和 SR 分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。

CoSeR 模仿了人类专家修复低质量图像自上而下的思维方式,首先建立对图像内容的全面认知,包括识别场景和主要物体的特征,随后将重点转移到对图像细节的检查和还原。本文的主要贡献如下:

  • 提出了一种通用的万物超分画质大模型 CoSeR,它能够从低清图像中提取认知特征,包括场景内容理解和纹理细节信息,从而提高模型的泛化能力和理解能力。

  • 提出了一种基于认知特征的参考图像生成方法,它能够生成与低清图像内容一致的高质量参考图像,用于指导图像的恢复过程,增强图像的保真度和美感度。

  • 提出了一种「All-in-Attention」模块,它能够将低清图像、认知特征、参考图像三个条件注入到模型当中,实现多源信息的融合和增强。

  • 在多个测试集和评价指标上,相较于现有方法,CoSeR 均取得了更好的效果。同时,CoSeR 在真实场景下也展现颇佳。

方法介绍

图 4 展示了 CoSeR 的整体架构。CoSeR 首先使用认知编码器来对低清图像进行解析,将提取到的认知特征传递给 Stable Diffusion 模型,用以激活扩散模型中的图像先验,从而恢复更精细的细节。

此外,CoSeR 利用认知特征来生成与低清图像内容一致的高质量参考图像。这些参考图像作为辅助信息,有助于提升超分辨率效果。最终,CoSeR 使用提出的「All-in-Attention」模块,将低清图像、认知特征、参考图像三个条件注入到模型当中,进一步提升结果的保真度。

图片

图 4. 本文提出的万物超分画质大模型 CoSeR。

图 5 展示了 CoSeR 参考图像生成的效果。与直接从低清图像中获取描述的方法相比,CoSeR 的认知特征保留了细粒度的图像特征,在生成具有高度相似内容的参考图像时具有优势。在图 5 的第一行,使用 BLIP2 从低清图像生成的描述无法准确识别动物的类别、颜色和纹理。

此外,CoSeR 的认知特征对于低清图像更加鲁棒。例如,在图 5 的第二行,由于输入分布的差异,BLIP2 会生成错误的图像描述,而 CoSeR 生成了内容一致的高质量参考图像。最后,相比于 BLIP2 大模型接近 7B 的参数量,CoSeR 的认知编码器只有其 3% 的参数量,极大提升了推理速度。

图片

图 5.(行一)使用 BLIP2 描述生成的参考图和 CoSeR 生成的参考图;(行二)CoSeR 的高鲁棒性。

结果展示

表 1 和图 6 展示了 CoSeR 与其他方法的定量和定性结果对比。CoSeR 在含有丰富类别的 ImageNet 数据集及真实超分数据集 RealSR 和 DRealSR 上,都取得了不错的结果。CoSeR 能够恢复出更加清晰和自然的图像细节,同时保持了图像的内容一致性和结构完整性。

图片

表 1. 定量结果对比。

图片

图 6. 定性结果对比。

本文提出的 CoSeR 模型为图像超分辨率技术提供了一种新的思路和方法,它能够从低清图像中提取认知特征,用于激活图像先验、生成参考图像,从而实现高质量的万物超分效果。研究人员表示,未来的研究重点是如何在不影响超分性能的情况下加速采样,以获得更高的视觉质量。

此外,作者还将探索统一模型在更多样化的图像修复任务中的表现。

产业CoSeR
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像修复技术

推荐文章
暂无评论
暂无评论~