APP下载

GauGAN AI作画技术大公开

消息来源:baojiabao.com 作者: 发布时间:2024-05-05

报价宝综合消息GauGAN AI作画技术大公开

随着GauGAN在6月开放公测以来,现在一般人也能画出媲美艺术大师水准的作品。作画者只要在上图网页左侧的画框空白处,以色笔绘制出基本轮廓图,就可以利用GauGAN工具将画好的涂鸦转换成拟真的风景照,并显示在网页右侧画框,还可以套用不同效果滤镜与绘画风格,来对应不同光影或天候型态。

图片来源: 

Nvidia

今年3月GTC大会,Nvidia首次展示一项AI作画应用GauGAN,可以根据使用者画的简单图像,自动生产一个拟真的实景图,还能将作品转变成不同时期艺术风格的画作,让即使是菜鸟画家,也能画出有如艺术大师水准的风景画。随后也在6月推出公开测试版,让大家可以试用,结果一推出就大获好评,短短一个月,使用GauGAN生成新图像就多达50万张,就连专业画家也爱不释手。Nvidia首席研究科学家,也是GauGAN计划主持人刘洺堉近日来台也揭露更多技术细节。

以生成式对抗网络GAN,让神经网络学习人类作画

GauGAN其实就是一个AI作画工具,经由AI来帮助人类作画,刘洺堉表示,透过这项工具,只要简单输入一张草稿图或是手绘图,就能转换成不同风格的图像。它也提供画笔和油漆桶等绘图工具,让使用者可以在网页上即时作画。

作画的人只要在网页上的画框空白处,简单画出轮廓图用来显示场景中每个物体的位置,就能利用GauGAN这个工具将画好的涂鸦转换为有如桌布上逼真的风景照,不仅可以分别出影像中物体的远近,带出景深感,就连阴影、材质纹路都可以逼真重现。

使用者边画的同时,还可以边查看创作的成果,再以带有不同标签的色笔替自己的画作增加或更换不同场景,就能自动在原图中产生对应的拟真景色,例如,河流、岩石、沙地、海滩、天空、雪地、树木及海水等;另外也可以套用不同效果滤镜与绘画风格,让一张图片可以同时呈现不同的光影效果或对应不同的天候、季节。“关键就是透过生成式对抗网络GAN(Generative Adversarial Network)来训练深度学习模型。”刘洺堉说。

在设计GauGAN生成网络架构时,Nvidia团队除了采用脸书开源的深度学习开发框架PyTorch,来设计出GauGAN背后的神经网络, 还自行开发一个关键核心算法SPADE,用来解决旧有pix2pixHD算法在特定场景下容易产生图像资讯遗失的问题,以维持高品质的影像生成效果。图片来源/Nvidia

GauGAN是以pix2pixHD为原型打造的深度生成模型

目前AI生成影像的常见作法,主要采用深度学习建立深度生成模型(Deep Generative Models),其中又以生成式对抗网络GAN近年来最受瞩目。刘洺堉表示,GAN是由两个神经网络组成,一个是随机合成新样本的生成器(Generator),另一个则是比较生成样本与训练样本差异的判别器(Discriminator),用以区分输入图像是真实或是虚假影像。

以辨识人脸为例,生成器的目标就是要说服判别器其产生的虚假人脸照为真,判别器的任务就是尽可能分辨出伪照的人脸,并通过一个个像素反馈指导生成器如何改良其合成人脸的真实性,以训练出一个连判别器都难以分辨真假的神经网络,让生成的虚构人脸接近真实人脸。

Nvidia早从几年前就开始使用GAN神经网络进行生成影像的相关研究,不只能够成功转换照片里的天气、季节以及产生不同照片风格,还能让生成的拟真动物做出跟真实动物一样的动作,例如,一只狗摇耳朵,也能对应到其他以GAN模型生成的猫都能做出同样动作,甚至也能用在影片人物动作姿态的生成上。

Nvidia首席研究科学家也是GauGAN 计划主持人刘洺堉表示,GauGAN的前身是由Nvidia团队去年开发的一种新型生成对抗网络模型pix2pixHD,主要是将经过语义分割后的图像,透过这个模型转换成几可乱真的实景或不同风格照片,比起传统影像生成效果表现更好。摄影/余至浩)

刘洺堉指出,GauGAN的前身是另一个生成对抗网络模型pix2pixHD,这个模型是Nvidia团队在2018年顶尖电脑视觉CVPR会议发表其研究成果时,所采用一种新型生成对抗网络模型,主要是将经过语义分割(Semantic Segmentation)后的图像,透过这个模型转换成几可乱真的实景或不同风格照片。

当输入一张照片时,只要事先将画面背景通过一个个色块进行切割,每一个色块以不同颜色进行标记,代表不同景色或物体,例如蓝色就是天空、绿色就是草地等,再将切割标记后的图像输入模型就能生成逼真的影像。GauGAN就是搭建在pix2pixHD之上开发出的最新对抗生成网络框架。

不过与一般归类非监督学习的GAN不同,他补充,GauGAN则是设计成监督学习方式,来提供生成神经网络学习指引方向,以避免生成图片偏离原本正确答案太远。他表示,透过这种生成作法,让神经网络学习分割图像到生产拟真图像的对应过程,如此一来,转换出来的影像,比起传统影像生成作法,不只产生的画面更逼真,也能维持更高影像分辨率,例如一张街景照经过GauGAN生成新照片后,不仅可生成不同路面形状,还可以更换照片中的车体颜色。

以百万张照当作对抗样本,搭配DGX-1硬件加快训练

在设计GauGAN架构时,他们还采用当红的开源深度学习开发框架PyTorch,来设计出GauGAN背后的神经网络,并使用100万张的图像当作训练样本,来进行模型训练。这些影像资料有来自线上相簿Flickr取得的数万张自然景观照片,也有从其他资料集取得的图像,包括COCO-Stuff、ADE20K、Cityscapes等,并持续加入新对抗样本,他表示,现在,训练样本数已增加到500万张,可供生成器与判别器的训练使用。

刘洺堉也透露,该团队还针对这个框架自行开发一个关键核心算法SPADE,用来解决旧有pix2pixHD算法在特定场景下容易产生图像资讯遗失的问题,因为是将语义分割图直接作为生成网络的输入进行计算,后来,通过加入SPADE替他们解决了这个难题,可以在加快训练的同时,也能够保持产生高度拟真且高品质的实景图像。还以多层SPADE ResBlk建构生成器的神经网络。

虽然GAN的好处之一是不需要花大量人力标注资料,但仍需要经过大量的数据运算,GauGAN也不例外,在训练模型时,Nvidia团队一开始采用了一台深度学习专用的DGX-1电脑来训练这个模型,其内含有8个Tesla V100 GPU卡,每张GPU卡内建32GB的内存,即使如此,初期也花了3周才完成模型训练。为了加快训练速度,该团队最近则是更进一步整合了新型Tensor Core硬件加速器,以及采用新的加速函式库AMP来进行GauGAN模型的训练,来帮助他们缩短训练时间,只用不到2周就完成。

多达百万使用者有用,连专业画家也爱用

随着GauGAN在6月开放公测以来,使用人数节节攀升,短短数个月,就已累积突破百万使用者。不仅仅是业余画家,就连职业艺术创作者现在绘制概念设计图时,也都拿它来完成背景的基本构图,再将这些生成设计图样,放进Photoshop或其他后制软件加工产生出最后的成品,让创作者能有更多时间花在设计主要构图上,加快内容创作,也能帮助他们获取更多设计灵感。

除了生成2D图像,刘洺堉指出,未来影像生成技术更大的挑战在于3D影像。尤其,数据分析每多一个维度,就会增加分析复杂度,相较2D数据,3D数据分析更为复杂;其次,在进行3D影像生成时,对于3D物件跟物件的相对关系掌控必须更加准确。

3D训练样本不足也是另一个棘手难题。不像2D影像垂手可得,他指出,3D影像搜集不易,即使用生成器生成训练用的样本,最多只是让这个神经网络学到生成器的水准,而且仍需要设计不同3D场景,提供3D生成器产生新场景之用,但如果想要让生成影像接近自然界的真实样貌,就需要多用这方面的真实照片来做训练,“训练样本决定了最后影像生成效果的好坏。”他强调。

2019-10-23 17:51:00

相关文章