APP下载

Double DIP —— 一种无监督层影象分割 AI 技术_进行

消息来源:baojiabao.com 作者: 发布时间:2024-05-19

报价宝综合消息Double DIP —— 一种无监督层影象分割 AI 技术_进行

AI 科技评论按:每月《Computer Vision News》都会选择一篇关于计算机视觉领域研究成果的论文进行回顾。今年三月份,他们选择了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位学者(下文中所提到的作者,均指以上三位学者)共同完成的关于 Double-DIP 模型的论文,其中详细介绍了基于耦合的深度影象先验网络对单个影象进行无监督层分割这一技术。

概况

许多看似无关的计算机视觉任务可以被视为影象分割为不同的层的特殊情况。举两个突出的例子:影象分割——分割成背景层和前景层的区域;影象去雾——分割为清晰图层和有雾图层。在该论文中,作者提出了一种基于耦合的“深度影象先验”(DIP)网络对单个影象进行无监督层分割的统一框架。

被 CVPR 2018 会议接收的深度影象先验(DIP)网络,是一种可以用来对单个影象的低阶统计资料进行生成的结构,而且只需要在单张影象上进行训练。而在论文中,作者向我们展示了如何通过耦合多个 DIP 网络得到一个强大的工具,来将影象分割为其基本组成,从而使其适用于各类任务。正因为所得资料来自于混合层的内部,相比其各个组成部分的资料更复杂且更具代表性,这使其多功能适用性具有实现的可能。作者们认为,模型能胜任多种任务的原因是,相比于在不同的层上各自进行,多种不同的层的内部统计特性更为鲁棒,也有更好的表征能力。

作者向我们展示了该方法在各类计算机视觉任务上的运用,比如:水印去除,前景/背景分割,影象去雾以及视讯中的透明度分离等。在没有提供任何额外资料的情况下,只需要在单张影象上进行训练,就可以完成以上所有的任务。

这种方法将影象分割成若干基本层,并提供一个统一的框架来对大量明显不同且无关的计算机视觉任务进行处理。所有这些影象分割的共同点是每个单独层内小块的分布比“混合”影象(即原始影象)更“简单”(均匀),从而导致每个单独层的内部相似性很强。已有研究证明小影象块(例如 5×5,7×7)的统计特征(分布)在自然影象中极具重复性,所以这种强内部重复性,可以很好的用于处理各种计算机视觉任务。

图1 影象分割的统一框架

作者的方法结合内部补丁重现,即小块影象的重复出现的特性(无需监督即可解决任务的能力)和深度学习的强大力量,提出了一种基于 DIP 网络的无监督框架。当 DIP 网络的输入是随机噪声时,它也能学会重建单个影象(该影象作为训练的唯一输入)时,单个 DIP 网络被证明可以很好的捕获单个自然影象的低阶统计资料。这个网络还被证实在无监督情况下,完全能够解决如:去噪,超分辨率和修复等问题。

影象分割基本原理

图2 影象分割基本原理

图 2 向我们说明了该方法的基本原理。它展示了如何利用 X 和 Y 两个图案,来混合产生新的更复杂的影象 Z。每个“纯”图案(X 和 Y)的小影象块的分布相比混合影象 Z 小影象块的分布更简单。众所周知,如果 X 和 y 是两个独立的随机变数,那么它们的和 Z = X + Y 的熵大于它们各自的熵。

图 2 的损失函式图还向我们详细展示了单个 DIP 网络作为时间函式(训练迭代)时的 MSE 重建损失。对于图中的 3 条线:(i)橙色是训练重建纹理影象 X 的 MSE 损失;(ii)蓝色是训练重建纹理 Y 的 MSE 损失;(iii)绿色是训练重建纹理影象 X+Y 的 MSE 损失。可以发现,MSE 损失值越大时,收敛时间越长。而且,混合影象的 MSE 损失值不仅大于两个单独影象的 MSE 损失值,实际上,还大于两个单独影象 MSE 损失值的总和。

为了证明这个现象不是偶然,作者从 BSD100 资料集(为了防止自然影象与规则图案间有差异)中随机选择了 100 对自然影象来重复该实验。而结果证明,混合影象与合成影象组之间 MSE 损失值的差值甚至更高。

图3 影象分割工作模型

图 3 详细说明了 Double-DIP 对影象进行分割时的工作模型。两个深度影象先验(DIP)网络(DIP1 DIP2)将输入影象分割成对应的影象层(y1&y2),然后根据二进位制掩模 m(x)进行重组,以形成尽可能接近于输入影象本身的重建影象 I。

什么样的分割是好的影象分割?有很多方法可以将其分割为基本图层,但作者提出有意义的分割应该满足这样几个标准:

这三个标准也是 Double-DIP 网络需要具体实现的参考。第一个标准通过最小化重建损失(衡量构造影象和输入影象之间的误差的引数)来实现;第二个标准通过采用多个 DIP(每层一个)实现;第三个标准由不同 DIP 的输出间的“不相容损失”强制执行(最小化它们的相关性)。

每个 DIP 网络重建输入影象 I 的不同图层 yi;每个 DIPi 的输入是随机取样的均匀噪声 zi; 使用权重掩模 m(x) 混合 DIP 输出 yi = DIPi(zi),从而生成重建影象:

其应尽可能接近输入影象 I。

对于某些任务中,权重掩模 m 非常简单,而在其他情况下则需要进行学习(使用附加 DIP 网络)。学习的掩模 m 可以是均匀的或空间变化的,连续的或二进位制的。对 m 的约束条件与任务相关联,并且使用指定任务的“正则化损失”来强制执行。因此优化损失是:

关于 Double-DIP 网络的训练和优化类似于基本 DIP。而在输入噪声中,增加额外的非恒定噪声扰动可以增加重建的稳定性。通过使用 8 个变换(4 个旋转 90°和 2 个映象反射 - 垂直和水平)转换输入影象 I 和所有 DIP 的相应随机噪声输入,可以进一步丰富训练集。

优化过程使用到了 ADAM 优化器,而每张图片在 Tesla V100 GPU 上仅需要几分钟来完成。

研究成果

论文内提到的多个成果中,我们在下文中着重讨论:

1)前景/背景分割

2)水印去除

我们可以设想将影象分割成前景和背景区域,前景层为 y1,背景层为 y2,对于每个画素根据二进位制掩模 m(x)进行组合,得到:

这个公式非常适合文中所提到的框架,它将“好的影象片段”定义为易于通过自身合成,但很难使用影象其他部分进行合成这个概念。为了使分割掩码 m(x)变为二进位制,我们使用以下正则化损失:

Double-DIP 能够基于无监督的层分割获得高质量的分割,如图 4 所示,更多影象分割结果可以在该专案的网站上进行观看。尽管有许多其他分割方法(其中包括语义分割)的表现甚至比 DIP 要好,然而它们都有一个的缺点——需要用大量的资料训练。

图 4 影象分割例项

水印广泛用于保护受版权保护的影象和视讯。Double-DIP 能够将水印作为影象反射的特殊情况来进行去除,其中图层 y1 和图层 y2 是分别是清理后的影象和水印。

和影象分割不同,在这种情况下,掩模没有被明确设定,而是使用两种实际解决方案之一来处理固有的透明层模糊性。如果仅涉及单个水印,则使用者通过带有边界框来标记水印区域;而当有少量影象具有相同的水印时(通常 2-3 张影象),在训练过程中将由模糊性原则自行处理。图 5 为一些水印去除的例项:

图 5 水印去除例项

结论

“Double-DIP”为无监督层分割的提供了统一的框架,这个框架可以适用于各种各样的任务。除了输入影象/视讯之外,它不需要任何其它训练资料。尽管这是一种通用的方法,但在某些任务中(如去雾),它所得到的结果可以与该领域的最先进的专业技术效果相当或甚至更好。该论文的作者认为,用语义/感知线索增强 Double-DIP 可能会使得语义分割和其他高阶计算机视觉任务方面的进步,在接下来的工作中,他们也打算对这个方面做进一步的研究。

AI 科技评论将相关连结整理如下:

https://arxiv.org/abs/1812.00467

https://www.rsipvision.com/ComputerVisionNews-2019May/4/

End

https://gair.leiphone.com/gair/coupon/s/5d0763011a53f

https://gair.leiphone.com/gair/coupon/s/5d0763011a2f6

https://gair.leiphone.com/gair/coupon/s/5d0763011a01e

点选看2019 春季伯克利深度无监督学习课程

2019-11-08 09:54:00

相关文章