报价宝 > 科技 >

CVPR 2019：微软最新提出ObjGAN 输入一句话秒生成图片

消息来源:baojiabao.com 作者: 发布时间：2024-05-05

报价宝综合消息CVPR 2019：微软最新提出ObjGAN 输入一句话秒生成图片

【新智元导读】微软和京东最近出了一个黑科技：说一句话就能生成图片！在这项研究中，研究人员提出了一种新的机器学习框架——ObjGAN，可以通过关注文字描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著物件。

不会PS还想做图？可以的！

近期，由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求：只需要输入一句话，就可以生成图片！

输入：

输出：

在这项研究中，研究人员提出了一种新的机器学习框架——ObjGAN，可以通过关注文字描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著物件。

此外，他们还提出了一种新的基于Fast R-CNN的关于物件(object-wise)鉴别器，用来提供关于合成物件是否与文字描述和预先生成的布局匹配的物件识别讯号。

论文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

这项工作已经发表在计算机视觉和模式识别领域顶会CVPR 2019。

这篇论文的合著作者表示，与之前最先进的技术相比，他们的方法大大提高了影象质量：

我们的生成器能够利用细粒度的单词和物件级(object-level)资讯逐步细化合成影象。

大量的实验证明了ObjGAN在复杂场景的文字到影象生成方面的有效性和泛化能力。

一句话秒生成图片！

根据文字的描述来生成影象，可以说是机器学习中一项非常重要的任务。

这项任务需要处理自然语言描述中模糊和不完整的资讯，并且还需要跨视觉和语言模式来进行学习。

自从GAN提出后，这项任务在结果上取得了较好的成绩，但是目前这些基于GAN的方法有一个缺点：

大多数影象合成方法都是基于全域性句子向量来合成影象，而全域性句子向量可能会丢失单词级别(word-level)的重要细粒度资讯，从而阻碍高质量影象的生成。大多数方法都没有在影象中明确地建模物件及其关系，因此难以生成复杂的场景。

图1 顶部：AttnGAN及其网格注意力视觉化；中部：修改前人工作的结果；底部：ObjGAN及其物件驱动的注意力视觉化

举个例子，如果要根据“几个人穿滑雪服的人在雪地里”这句话生成一张图片，那么需要对不同的物件(人、滑雪服)及其互动(穿滑雪服的人)进行建模，还需要填充缺失的资讯(例如背景中的岩石)。

图1的第一行是由AttnGAN生成的影象，虽然影象中包含了人和雪的纹理，但是人的形状是扭曲的，影象布局在语义上是没有意义的。

为了解决这个问题，首先从文字构造语义布局，然后通过反卷积影象生成器合成影象。

从图1的中间一行可知，虽然细粒度的word/objectlevel资讯仍然没有很好的用于生成。因此，合成的影象没有包含足够的细节让它们看起来更加真实。

本研究的目标就是生成具有语义意义(semantically meaningful)的布局和现实物件的高质量复杂影象。

为此，研究人员提出了一种新颖的物件驱动的注意力生成对抗网络(Object-driven Attentive Generative Adversarial Networks，Obj-GAN)，该网络能够有效地捕获和利用细粒度的word/objectlevel资讯进行文字到影象的合成。

ObjGAN由一对儿物件驱动的注意力影象生成器和object-wise判别器组成，并采用了一种新的物件驱动注意机制。

图2 物件驱动的注意力影象生成器

图3 Object-wise判别器

该影象生成器以文字描述和预先生成的语义布局为输入，通过多阶段由粗到精的过程合成高分辨率影象。

在每个阶段，生成器通过关注与该边界框中的物件最相关的单词来合成边界框内的影象区域，如图1的底部行所示。

更具体地说，它使用一个新的物件驱动的注意层，使用类标签查询句子中的单词，形成一个单词上下文向量，如图4所示，然后根据类标签和单词上下文向量条件合成影象区域。

图4 物件驱动的注意力

Object-wise判别器会对每个边界框进行检查，确保生成的物件确实与预先生成的语义布局是匹配的。

同时，为了有效地计算所有边界框的识别损失，object-wise判别器基于一个Fast-RNN，并且每个边界框都有一个二院交叉熵损失。

实验结果

研究人员在实验过程中采用的资料集是COCO资料集。它包含80个物件类，其中每个影象与物件注释（即，边界框和形状）和5个文字描述相关联。

在评价指标方面，研究人员采用 Inception score(IS)和Frechet Inception distance(FID) score作为定量评价指标。结果如下表所示：

表1

接下来，是采用不同方法生成影象的结果与实际影象的对比结果：

图5 整体定性比较。所有影象都是在不使用任何ground-truth的情况下生成的。

图6 与P-AttnGAN w/ Lyt进行定性比较

图7 与P-AttnGAN的定性比较。每个方法的注意力图显示在生成的影象旁边。

参考连结：

论文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

VB部落格地址：

https://venturebeat.com/2019/06/17/microsoft-researchers-use-gans-to-generate-images-and-storyboards-from-captions/

2019-10-22 06:56:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格数码相机价格手机价格笔记本价格电视机价格小米手机价格

相关文章

中兴受美国制裁事件被罚了20亿美元过程事件始末中兴被制裁后公司现状
2023-11-02 22:12:46
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45

最新资讯

YouTube更新违反规定政策，提升惩处透明度和一致性
2023-12-31 14:00:52
美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
小米汽车传员工3700人雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市预售价格22.99万元
2023-12-28 19:30:28
日本丰田汽车厂11月全球产量创新高
2023-12-28 19:26:02

手机

中国11月手机出货量增34% 5G手机出货量2709.2万部
2023-12-28 19:27:57
荣耀发布新一代旗舰荣耀Magic5系列，新款上市价格分期0首付3999元起
2023-03-06 16:12:32
美国商务部指违禁，长江存储被美国拜登制裁名单面临停工裁员
2023-02-17 18:41:53
苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌
2023-02-02 17:33:27
香港去哪买三星手机回来吗？买香港便宜售价手机市场地点和网站
2023-02-02 11:03:11

数码

华为5G芯片正式亮相：预示华为将发首款5G手机
2023-08-31 13:22:33
腾讯传计划放弃虚拟现实VR硬件计划
2023-02-17 23:32:30
三星手机份额大跌！三星手机中国市场份额变化国内仅剩3%
2023-02-01 17:06:15
三星手机份额大跌在中国没市场了！国内市场占有率仅剩1%国外比苹果销量高
2023-02-01 16:59:53
vivo发布2022 vivoNEX手机极简易浏览器下载：简洁流畅无广告！
2022-12-02 17:29:30

科技

中兴受美国制裁事件被罚了20亿美元过程事件始末中兴被制裁后公司现状
2023-11-02 22:12:46
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09

品牌选车

选择品牌

选择车系

选择车型