Google应用扩散模型拉高照片分辨率，人类难区分合成与真实照片最新消息

Google应用扩散模型拉高照片分辨率，人类难区分合成与真实照片

消息来源:baojiabao.com 作者: 发布时间：2024-05-04

报价宝综合消息Google应用扩散模型拉高照片分辨率，人类难区分合成与真实照片

Google研究人员发表逼真图像生成新方法，能够突破扩散模型合成图像品质的限制，透过结合反复精细改进（SR3）算法，以及一种称为串连扩散模型（Cascaded Diffusion Models，CDM）的类型条件（Class-Conditional）合成模型，其生成图像的品质胜过当前的所有方法。

自然合成图像是机器学习技术的应用之一，能够广泛用于各种领域之中，像是图像超分辨率（Super-Resolution），透过训练模型将低分辨率图像，转换成为细节丰富的高分辨率图像，研究人员提到，这样的方法带来许多好处，无论是全家福旧照或是医学成像系统，图像品质都可以获得大幅改进。另一种图像合成任务，则是类型条件（Class-Conditional）图像生成，经训练的模型能够依据使用者输入的标签，来生成样本图像。

在2015年的时候，扩散模型被提出来，由于其在图像和音讯生成领域，有着训练稳定度，和样本品质佳的特性，因此受到关注，与其他类型的深度生成模型相比，扩散模型透过提高高斯噪声来破坏训练资料，缓慢消除资料细节直到剩下完全的噪声，接着训练神经网络来反转这个破坏过程，在反转过程逐渐除去噪声，直到剩下干净的样本，研究人员提到，这样的合成过程可以算是一种最佳化算法，能够遵循资料密度的梯度，来产生可能的样本。

在Google的最新研究中，透过连结SR3以及CDM，来突破扩散模型图片生成的分辨率瓶颈，借由扩大扩散模型，加上特殊的资料增强技术，就可产生胜过现有方法的结果。SR3是一种超分辨率扩散模型，以低分辨率作为输入，并从完全的噪声中，建构出相对应的高分辨率图像。这个模型利用图像破坏过程进行训练，在该过程中，逐渐添加噪声到高分辨率图像中，直到完全剩下的噪声，然后再逆转这个过程，从纯噪声开始，透过输入低分辨率图像，来引导模型逐步去除噪声。

SR3模型的效果很好，在执行提高人脸和自然图片分辨率的任务中，SR3模型所产生的图像，能够以50％的混淆率，让受测者辨识不出究竟是生成的图像，还是由相机拍摄的图像，也就是说，SR3模型生成的图像，人类已经难以区分真假。

在SR3可以产生超高分辨率图像之后，研究人员将SR3模型用在类型条件图像生成中。CDM是类型条件的扩散模型，利用ImageNet资料训练，以生成高分辨率自然图像，因为ImageNet是一个困难且高乱度的资料集，因此研究人员串连多个扩散模型来建置CDM。

研究人员提到，这种串连方法可以将跨数个空间分辨率的多个生成模型链接在一起，再产生低分辨率资料的扩散模型，仅接着一系列SR3高分辨率扩散模型，来逐渐将生成图像的分辨率提高。

总体结果，SR3所生成的超高分辨率图像，在人类评估超过了GAN，而CDM所生成的逼真样本，在评估生成模型创建图片品质的FID（Fréchet Inception Distance）分数以及分类准确度分数，都大幅超过当前顶尖方法BigGAN-deep与VQ-VAE-2。

2021-07-20 20:47:00