Nvidia
今年3月GTC大会,Nvidia首次展示一项AI作画应用GauGAN,可以根据使用者画的简单图像,自动生产一个拟真的实景图,还能将作品转变成不同时期艺术风格的画作,让即使是菜鸟画家,也能画出有如艺术大师水准的风景画。随后也在6月推出公开测试版,让大家可以试用,结果一推出就大获好评,短短一个月,使用GauGAN生成新图像就多达50万张,就连专业画家也爱不释手。Nvidia首席研究科学家,也是GauGAN计划主持人刘洺堉近日来台也揭露更多技术细节。
以生成式对抗网络GAN,让神经网络学习人类作画
GauGAN其实就是一个AI作画工具,经由AI来帮助人类作画,刘洺堉表示,透过这项工具,只要简单输入一张草稿图或是手绘图,就能转换成不同风格的图像。它也提供画笔和油漆桶等绘图工具,让使用者可以在网页上即时作画。
作画的人只要在网页上的画框空白处,简单画出轮廓图用来显示场景中每个物体的位置,就能利用GauGAN这个工具将画好的涂鸦转换为有如桌布上逼真的风景照,不仅可以分别出影像中物体的远近,带出景深感,就连阴影、材质纹路都可以逼真重现。
使用者边画的同时,还可以边查看创作的成果,再以带有不同标签的色笔替自己的画作增加或更换不同场景,就能自动在原图中产生对应的拟真景色,例如,河流、岩石、沙地、海滩、天空、雪地、树木及海水等;另外也可以套用不同效果滤镜与绘画风格,让一张图片可以同时呈现不同的光影效果或对应不同的天候、季节。“关键就是透过生成式对抗网络GAN(Generative Adversarial Network)来训练深度学习模型。”刘洺堉说。
在设计GauGAN生成网络架构时,Nvidia团队除了采用脸书开源的深度学习开发框架PyTorch,来设计出GauGAN背后的神经网络, 还自行开发一个关键核心算法SPADE,用来解决旧有pix2pixHD算法在特定场景下容易产生图像资讯遗失的问题,以维持高品质的影像生成效果。图片来源/Nvidia
GauGAN是以pix2pixHD为原型打造的深度生成模型
目前AI生成影像的常见作法,主要采用深度学习建立深度生成模型(Deep Generative Models),其中又以生成式对抗网络GAN近年来最受瞩目。刘洺堉表示,GAN是由两个神经网络组成,一个是随机合成新样本的生成器(Generator),另一个则是比较生成样本与训练样本差异的判别器(Discriminator),用以区分输入图像是真实或是虚假影像。
以辨识人脸为例,生成器的目标就是要说服判别器其产生的虚假人脸照为真,判别器的任务就是尽可能分辨出伪照的人脸,并通过一个个像素反馈指导生成器如何改良其合成人脸的真实性,以训练出一个连判别器都难以分辨真假的神经网络,让生成的虚构人脸接近真实人脸。
Nvidia早从几年前就开始使用GAN神经网络进行生成影像的相关研究,不只能够成功转换照片里的天气、季节以及产生不同照片风格,还能让生成的拟真动物做出跟真实动物一样的动作,例如,一只狗摇耳朵,也能对应到其他以GAN模型生成的猫都能做出同样动作,甚至也能用在影片人物动作姿态的生成上。
Nvidia首席研究科学家也是GauGAN 计划主持人刘洺堉表示,GauGAN的前身是由Nvidia团队去年开发的一种新型生成对抗网络模型pix2pixHD,主要是将经过语义分割后的图像,透过这个模型转换成几可乱真的实景或不同风格照片,比起传统影像生成效果表现更好。摄影/余至浩) |
刘洺堉指出,GauGAN的前身是另一个生成对抗网络模型pix2pixHD,这个模型是Nvidia团队在2018年顶尖电脑视觉CVPR会议发表其研究成果时,所采用一种新型生成对抗网络模型,主要是将经过语义分割(Semantic Segmentation)后的图像,透过这个模型转换成几可乱真的实景或不同风格照片。
当输入一张照片时,只要事先将画面背景通过一个个色块进行切割,每一个色块以不同颜色进行标记,代表不同景色或物体,例如蓝色就是天空、绿色就是草地等,再将切割标记后的图像输入模型就能生成逼真的影像。GauGAN就是搭建在pix2pixHD之上开发出的最新对抗生成网络框架。
不过与一般归类非监督学习的GAN不同,他补充,GauGAN则是设计成监督学习方式,来提供生成神经网络学习指引方向,以避免生成图片偏离原本正确答案太远。他表示,透过这种生成作法,让神经网络学习分割图像到生产拟真图像的对应过程,如此一来,转换出来的影像,比起传统影像生成作法,不只产生的画面更逼真,也能维持更高影像分辨率,例如一张街景照经过GauGAN生成新照片后,不仅可生成不同路面形状,还可以更换照片中的车体颜色。
以百万张照当作对抗样本,搭配DGX-1硬件加快训练
在设计GauGAN架构时,他们还采用当红的开源深度学习开发框架PyTorch,来设计出GauGAN背后的神经网络,并使用100万张的图像当作训练样本,来进行模型训练。这些影像资料有来自线上相簿Flickr取得的数万张自然景观照片,也有从其他资料集取得的图像,包括COCO-Stuff、ADE20K、Cityscapes等,并持续加入新对抗样本,他表示,现在,训练样本数已增加到500万张,可供生成器与判别器的训练使用。
刘洺堉也透露,该团队还针对这个框架自行开发一个关键核心算法SPADE,用来解决旧有pix2pixHD算法在特定场景下容易产生图像资讯遗失的问题,因为是将语义分割图直接作为生成网络的输入进行计算,后来,通过加入SPADE替他们解决了这个难题,可以在加快训练的同时,也能够保持产生高度拟真且高品质的实景图像。还以多层SPADE ResBlk建构生成器的神经网络。
虽然GAN的好处之一是不需要花大量人力标注资料,但仍需要经过大量的数据运算,GauGAN也不例外,在训练模型时,Nvidia团队一开始采用了一台深度学习专用的DGX-1电脑来训练这个模型,其内含有8个Tesla V100 GPU卡,每张GPU卡内建32GB的内存,即使如此,初期也花了3周才完成模型训练。为了加快训练速度,该团队最近则是更进一步整合了新型Tensor Core硬件加速器,以及采用新的加速函式库AMP来进行GauGAN模型的训练,来帮助他们缩短训练时间,只用不到2周就完成。
多达百万使用者有用,连专业画家也爱用
随着GauGAN在6月开放公测以来,使用人数节节攀升,短短数个月,就已累积突破百万使用者。不仅仅是业余画家,就连职业艺术创作者现在绘制概念设计图时,也都拿它来完成背景的基本构图,再将这些生成设计图样,放进Photoshop或其他后制软件加工产生出最后的成品,让创作者能有更多时间花在设计主要构图上,加快内容创作,也能帮助他们获取更多设计灵感。
除了生成2D图像,刘洺堉指出,未来影像生成技术更大的挑战在于3D影像。尤其,数据分析每多一个维度,就会增加分析复杂度,相较2D数据,3D数据分析更为复杂;其次,在进行3D影像生成时,对于3D物件跟物件的相对关系掌控必须更加准确。
3D训练样本不足也是另一个棘手难题。不像2D影像垂手可得,他指出,3D影像搜集不易,即使用生成器生成训练用的样本,最多只是让这个神经网络学到生成器的水准,而且仍需要设计不同3D场景,提供3D生成器产生新场景之用,但如果想要让生成影像接近自然界的真实样貌,就需要多用这方面的真实照片来做训练,“训练样本决定了最后影像生成效果的好坏。”他强调。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09