GauGAN AI作画技术大公开最新消息

随着GauGAN在6月开放公测以来，现在一般人也能画出媲美艺术大师水准的作品。作画者只要在上图网页左侧的画框空白处，以色笔绘制出基本轮廓图，就可以利用GauGAN工具将画好的涂鸦转换成拟真的风景照，并显示在网页右侧画框，还可以套用不同效果滤镜与绘画风格，来对应不同光影或天候型态。

图片来源:

Nvidia

今年3月GTC大会，Nvidia首次展示一项AI作画应用GauGAN，可以根据使用者画的简单图像，自动生产一个拟真的实景图，还能将作品转变成不同时期艺术风格的画作，让即使是菜鸟画家，也能画出有如艺术大师水准的风景画。随后也在6月推出公开测试版，让大家可以试用，结果一推出就大获好评，短短一个月，使用GauGAN生成新图像就多达50万张，就连专业画家也爱不释手。Nvidia首席研究科学家，也是GauGAN计划主持人刘洺堉近日来台也揭露更多技术细节。

以生成式对抗网络GAN，让神经网络学习人类作画

GauGAN其实就是一个AI作画工具，经由AI来帮助人类作画，刘洺堉表示，透过这项工具，只要简单输入一张草稿图或是手绘图，就能转换成不同风格的图像。它也提供画笔和油漆桶等绘图工具，让使用者可以在网页上即时作画。

作画的人只要在网页上的画框空白处，简单画出轮廓图用来显示场景中每个物体的位置，就能利用GauGAN这个工具将画好的涂鸦转换为有如桌布上逼真的风景照，不仅可以分别出影像中物体的远近，带出景深感，就连阴影、材质纹路都可以逼真重现。

使用者边画的同时，还可以边查看创作的成果，再以带有不同标签的色笔替自己的画作增加或更换不同场景，就能自动在原图中产生对应的拟真景色，例如，河流、岩石、沙地、海滩、天空、雪地、树木及海水等；另外也可以套用不同效果滤镜与绘画风格，让一张图片可以同时呈现不同的光影效果或对应不同的天候、季节。“关键就是透过生成式对抗网络GAN（Generative Adversarial Network）来训练深度学习模型。”刘洺堉说。

在设计GauGAN生成网络架构时，Nvidia团队除了采用脸书开源的深度学习开发框架PyTorch，来设计出GauGAN背后的神经网络，还自行开发一个关键核心算法SPADE，用来解决旧有pix2pixHD算法在特定场景下容易产生图像资讯遗失的问题，以维持高品质的影像生成效果。图片来源／Nvidia

GauGAN是以pix2pixHD为原型打造的深度生成模型

目前AI生成影像的常见作法，主要采用深度学习建立深度生成模型（Deep Generative Models），其中又以生成式对抗网络GAN近年来最受瞩目。刘洺堉表示，GAN是由两个神经网络组成，一个是随机合成新样本的生成器（Generator），另一个则是比较生成样本与训练样本差异的判别器（Discriminator），用以区分输入图像是真实或是虚假影像。

以辨识人脸为例，生成器的目标就是要说服判别器其产生的虚假人脸照为真，判别器的任务就是尽可能分辨出伪照的人脸，并通过一个个像素反馈指导生成器如何改良其合成人脸的真实性，以训练出一个连判别器都难以分辨真假的神经网络，让生成的虚构人脸接近真实人脸。

Nvidia早从几年前就开始使用GAN神经网络进行生成影像的相关研究，不只能够成功转换照片里的天气、季节以及产生不同照片风格，还能让生成的拟真动物做出跟真实动物一样的动作，例如，一只狗摇耳朵，也能对应到其他以GAN模型生成的猫都能做出同样动作，甚至也能用在影片人物动作姿态的生成上。

Nvidia首席研究科学家也是GauGAN 计划主持人刘洺堉表示，GauGAN的前身是由Nvidia团队去年开发的一种新型生成对抗网络模型pix2pixHD，主要是将经过语义分割后的图像，透过这个模型转换成几可乱真的实景或不同风格照片，比起传统影像生成效果表现更好。摄影／余至浩）

刘洺堉指出，GauGAN的前身是另一个生成对抗网络模型pix2pixHD，这个模型是Nvidia团队在2018年顶尖电脑视觉CVPR会议发表其研究成果时，所采用一种新型生成对抗网络模型，主要是将经过语义分割（Semantic Segmentation）后的图像，透过这个模型转换成几可乱真的实景或不同风格照片。

当输入一张照片时，只要事先将画面背景通过一个个色块进行切割，每一个色块以不同颜色进行标记，代表不同景色或物体，例如蓝色就是天空、绿色就是草地等，再将切割标记后的图像输入模型就能生成逼真的影像。GauGAN就是搭建在pix2pixHD之上开发出的最新对抗生成网络框架。

不过与一般归类非监督学习的GAN不同，他补充，GauGAN则是设计成监督学习方式，来提供生成神经网络学习指引方向，以避免生成图片偏离原本正确答案太远。他表示，透过这种生成作法，让神经网络学习分割图像到生产拟真图像的对应过程，如此一来，转换出来的影像，比起传统影像生成作法，不只产生的画面更逼真，也能维持更高影像分辨率，例如一张街景照经过GauGAN生成新照片后，不仅可生成不同路面形状，还可以更换照片中的车体颜色。

以百万张照当作对抗样本，搭配DGX-1硬件加快训练

在设计GauGAN架构时，他们还采用当红的开源深度学习开发框架PyTorch，来设计出GauGAN背后的神经网络，并使用100万张的图像当作训练样本，来进行模型训练。这些影像资料有来自线上相簿Flickr取得的数万张自然景观照片，也有从其他资料集取得的图像，包括COCO-Stuff、ADE20K、Cityscapes等，并持续加入新对抗样本，他表示，现在，训练样本数已增加到500万张，可供生成器与判别器的训练使用。

刘洺堉也透露，该团队还针对这个框架自行开发一个关键核心算法SPADE，用来解决旧有pix2pixHD算法在特定场景下容易产生图像资讯遗失的问题，因为是将语义分割图直接作为生成网络的输入进行计算，后来，通过加入SPADE替他们解决了这个难题，可以在加快训练的同时，也能够保持产生高度拟真且高品质的实景图像。还以多层SPADE ResBlk建构生成器的神经网络。

虽然GAN的好处之一是不需要花大量人力标注资料，但仍需要经过大量的数据运算，GauGAN也不例外，在训练模型时，Nvidia团队一开始采用了一台深度学习专用的DGX-1电脑来训练这个模型，其内含有8个Tesla V100 GPU卡，每张GPU卡内建32GB的内存，即使如此，初期也花了3周才完成模型训练。为了加快训练速度，该团队最近则是更进一步整合了新型Tensor Core硬件加速器，以及采用新的加速函式库AMP来进行GauGAN模型的训练，来帮助他们缩短训练时间，只用不到2周就完成。

多达百万使用者有用，连专业画家也爱用

随着GauGAN在6月开放公测以来，使用人数节节攀升，短短数个月，就已累积突破百万使用者。不仅仅是业余画家，就连职业艺术创作者现在绘制概念设计图时，也都拿它来完成背景的基本构图，再将这些生成设计图样，放进Photoshop或其他后制软件加工产生出最后的成品，让创作者能有更多时间花在设计主要构图上，加快内容创作，也能帮助他们获取更多设计灵感。

除了生成2D图像，刘洺堉指出，未来影像生成技术更大的挑战在于3D影像。尤其，数据分析每多一个维度，就会增加分析复杂度，相较2D数据，3D数据分析更为复杂；其次，在进行3D影像生成时，对于3D物件跟物件的相对关系掌控必须更加准确。

3D训练样本不足也是另一个棘手难题。不像2D影像垂手可得，他指出，3D影像搜集不易，即使用生成器生成训练用的样本，最多只是让这个神经网络学到生成器的水准，而且仍需要设计不同3D场景，提供3D生成器产生新场景之用，但如果想要让生成影像接近自然界的真实样貌，就需要多用这方面的真实照片来做训练，“训练样本决定了最后影像生成效果的好坏。”他强调。