APP下载

Google应用扩散模型拉高照片分辨率,人类难区分合成与真实照片

消息来源:baojiabao.com 作者: 发布时间:2024-05-04

报价宝综合消息Google应用扩散模型拉高照片分辨率,人类难区分合成与真实照片

Google研究人员发表逼真图像生成新方法,能够突破扩散模型合成图像品质的限制,透过结合反复精细改进(SR3)算法,以及一种称为串连扩散模型(Cascaded Diffusion Models,CDM)的类型条件(Class-Conditional)合成模型,其生成图像的品质胜过当前的所有方法。

自然合成图像是机器学习技术的应用之一,能够广泛用于各种领域之中,像是图像超分辨率(Super-Resolution),透过训练模型将低分辨率图像,转换成为细节丰富的高分辨率图像,研究人员提到,这样的方法带来许多好处,无论是全家福旧照或是医学成像系统,图像品质都可以获得大幅改进。另一种图像合成任务,则是类型条件(Class-Conditional)图像生成,经训练的模型能够依据使用者输入的标签,来生成样本图像。

在2015年的时候,扩散模型被提出来,由于其在图像和音讯生成领域,有着训练稳定度,和样本品质佳的特性,因此受到关注,与其他类型的深度生成模型相比,扩散模型透过提高高斯噪声来破坏训练资料,缓慢消除资料细节直到剩下完全的噪声,接着训练神经网络来反转这个破坏过程,在反转过程逐渐除去噪声,直到剩下干净的样本,研究人员提到,这样的合成过程可以算是一种最佳化算法,能够遵循资料密度的梯度,来产生可能的样本。

在Google的最新研究中,透过连结SR3以及CDM,来突破扩散模型图片生成的分辨率瓶颈,借由扩大扩散模型,加上特殊的资料增强技术,就可产生胜过现有方法的结果。SR3是一种超分辨率扩散模型,以低分辨率作为输入,并从完全的噪声中,建构出相对应的高分辨率图像。这个模型利用图像破坏过程进行训练,在该过程中,逐渐添加噪声到高分辨率图像中,直到完全剩下的噪声,然后再逆转这个过程,从纯噪声开始,透过输入低分辨率图像,来引导模型逐步去除噪声。

SR3模型的效果很好,在执行提高人脸和自然图片分辨率的任务中,SR3模型所产生的图像,能够以50%的混淆率,让受测者辨识不出究竟是生成的图像,还是由相机拍摄的图像,也就是说,SR3模型生成的图像,人类已经难以区分真假。

在SR3可以产生超高分辨率图像之后,研究人员将SR3模型用在类型条件图像生成中。CDM是类型条件的扩散模型,利用ImageNet资料训练,以生成高分辨率自然图像,因为ImageNet是一个困难且高乱度的资料集,因此研究人员串连多个扩散模型来建置CDM。

研究人员提到,这种串连方法可以将跨数个空间分辨率的多个生成模型链接在一起,再产生低分辨率资料的扩散模型,仅接着一系列SR3高分辨率扩散模型,来逐渐将生成图像的分辨率提高。

总体结果,SR3所生成的超高分辨率图像,在人类评估超过了GAN,而CDM所生成的逼真样本,在评估生成模型创建图片品质的FID(Fréchet Inception Distance)分数以及分类准确度分数,都大幅超过当前顶尖方法BigGAN-deep与VQ-VAE-2。

2021-07-20 20:47:00

相关文章