APP下载

特斯联研发新突破:基于丰富特征学习的快速图像复原和增强

消息来源:baojiabao.com 作者: 发布时间:2024-05-21

报价宝综合消息特斯联研发新突破:基于丰富特征学习的快速图像复原和增强

图像复原 (Image Restoration) 旨在恢复丢失的高质量图像内容,在计算摄影、自动驾驶和遥感等诸多应用领域有着广泛的应用价值。近年来,受卷积神经网络 (convolutional neural networks, CNNs)主导,图像复原领域取得了重大进展。然而,广泛使用的基于卷积神经网络的方法通常在全分辨率(full-resolution)或逐步地低分辨率(low-resolution)表征上运行,分别面临着上下文信息不能被精确编码抑或是空间上不够精确的问题。在这样的背景下,特斯联首席科学家邵岭博士及其团队提出了一种全新架构予以解决。相关研究成果(题为:Learning Enriched Features for Fast Image Restoration and Enhancement)已被 AI 顶级学术刊物 IEEE T-PAMI 收录。

受客观条件限制,现有方法现弊端

在图像采集时,由于相机的物理限制或复杂的照明条件,经常会造城不同严重程度的图像退化。举例来说,智能手机相机的光圈狭小,具有动态范围有限的小型传感器,因而,它们总是得到有噪声和低对比度的图像。类似地,在不合适的照明情况下,拍摄的图像要么太暗要么太亮。图像修复旨在从损坏的度量中恢复原始的干净图像。由于存在许多可能的解决方案,这是一个不适定的逆问题(ill-posed inverse problem)。

因深度学习模型可以从大规模数据集中学习强(可泛化的)先验,深度学习模型引领了图像修复和增强的最新进展。现有的卷积神经网络通常遵循两种架构中的一种:1)编码器 -- 解码器,或 2)高分辨率(单尺度)特征处理。编码器 -- 解码器模型首先将输入逐步映射到低分辨率的表征,然后再逐步反向映射到原始分辨率。尽管这种方法通过降低空间分辨率来学习广泛的上下文,但会丢失精细的空间细节,加大了后期修复的难度。另一方面,高分辨率(单尺度)网络不采用任何下采样操作,可以更好地修复空间细节,然而,这些网络的感受野有限,在编码上下文信息方面效果较差。

全新方法融合互补特征,实现感受野动态适应

图像修复是一个位置敏感的过程,需要从输入图像到输出图像逐像素的对应。因此,只删除不想要的退化图像内容,而仔细保留所需的精细空间细节(例如真实边缘和纹理)是至关重要的。这种用于从真实信号中分离退化内容的功能可以更好地借助广泛上下文合并到卷积神经网络中,例如通过扩大感受野。为实现这一目标,团队开发了一种全新的多尺度(multi-scale)方法,沿网络层次结构保持原始高分辨率特征,从而最大限度地减少精确空间细节的损失。同时,新模型使用以较低空间分辨率处理特征的并行的卷积流(parallel convolution streams)来编码多尺度上下文。多分辨率并行分支与主要高分辨率分支互补,从而提供更精确和上下文丰富的表征。

该方法与现有的多尺度图像处理方法之间的主要区别在于聚合上下文信息的方式。现有的方法分别处理每个尺度,而新方法从粗到细逐步交换和融合各分辨率级别的信息。此外,与现有方法简单 concatenation 或 averaging 多分辨率分支的特征不同,新方法引入了一种新的选择性核(selective kernel)融合方法,利用自注意力机制,从每个分支表征动态筛选一组有用的核。更重要的是,所提出的融合块结合了具有不同感受野的特征,同时保留了它们独特的互补的特征。

这一研究成果的主要贡献包括:

一种全新的特征提取模型,获得一组跨越多个空间尺度的互补的特征,同时维持原始高分辨率特征以保留精确的空间细节。

一种定期重复的信息交换机制,从粗到细的分辨率分支特征逐渐融合在一起以提高表征学习。

一种使用选择性核网络融合多尺度特征的新方法,该网络动态组合可变感受野,并在每个空间分辨率可靠地保留原始特征信息。

团队所提出的用于学习丰富特征以快速图像复原和增强的 MIRNet-v2 框架

MIRNet-v2 达 SOTA 水平,跨数据集可泛化

这项成果的初版 MIRNet 已作为会议论文,于 2020 年在 Europeon Conference on Computer Vision(ECCV)发表,然而该模型在模型大小和速度方面都很昂贵。在此次研究中,团队围绕 MIRNet 进行了几项关键修改,显着降低计算成本的同时提高模型性能。在团队提出的 MIRNet-v2 中,(a)团队证明了特征融合仅在低分辨率流到高分辨率流的方向上表现最好,并且可以删除高分辨率分支到低分辨率分支的信息流,以提高效率。(b)团队用全新的残差上下文块(Residual Contextual Block, RCB)替换了双重注意力单元 (Dual Attention Unit)。此外,团队在 RCB 中引入了分组卷积(group convolutions),能够在每个滤波器组中学习独特的表征,同时比标准卷积更节省资源。(c)团队采用渐进式学习 (progressively learning) 来提高训练速度:网络在早期的时候在小图像块上训练,之后的 training epochs 在逐步变大的图像块上训练。(d)团队展示了这一设计在双像素散焦去模糊(dual-pixel defocus deblurring)的新任务以及图像去噪、超分辨(super-resolution)和图像增强 (image enhancement) 图像处理任务中的有效性。团队对 MIRNet-v2 产生的结果进行了定性和定量评估,并将其在六个真实图像数据集上,与 SOTA 方法进行了比较。MIRNet-v2 在所有六个数据集上都达到了 SOTA 水平。此外,团队还针对实际挑战开展了广泛评估,例如跨数据集的泛化能力。

LoL 数据集上低光照增强方法的视觉比较。MIRNet-v2 产生的图像在亮度和全局对比度方面在视觉上更接近真实情况

总体而言,传统的图像复原和增强 pipelines 或者依照沿网络层次结构的全分辨率特征,或者使用编码器 -- 解码器架构。第一类方法有助于保留精确的空间细节,而后一类方法能够提供更好的上下文表征。然而,这些方法只能满足上述两个要求中的一个,而现实世界的图像复原任务需要基于给定的输入样本将两者相结合。据此,团队提出了一种全新的架构,其主要分支专用于全分辨率处理,而并行分支的互补集提供了更好的上下文表征。团队还提出了全新的机制来学习每个分支内以及跨多尺度分支的特征之间的关系。团队的特征融合策略确保感受野可以动态适应,而不会牺牲原始特征细节。这一全新方法在四个用于图像复原和增强任务的六个数据集上实现了一致的 SOTA 成就,证实了其有效性。

2022-12-21 17:42:34

相关文章