DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……
消息来源:baojiabao.com 作者: 发布时间:2026-05-27

夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI
在教会AI脑补、理解周围的环境之后,还能往什么方向努力?
“人工智能梦之队”DeepMind给出了非常多的例子。
继DeepMind今年6月在Science上发表论文提出GQN(Generative Query Network,生成查询网络)之后,他们相关的研究还在继续。
DeepMind今天在Twitter上公开了GQN的一些新扩展、新应用。
GQN原本的能力,主要表现为基于几张图像,还原出一个3D场景,并生成这个场景任意视角下的渲染图。
当然,作为一项开创性的研究,它所使用的场景,还是比较简单的。
如今的这些新进展,将GQN的能力扩展到了连续视频的生成、在MineCraft这种复杂场景中定位、根据文字描述来生成场景等等,甚至还将GQN的训练方法,搬到了更广泛的回归、分类等任务上。
我们来分别看一看。
用GQN的训练方式搞定其他任务
DeepMind认为,GQN创造的训练机制很不错。于是,他们在最新的两项神经过程(Neural Processes)研究中,将这种训练机制泛化到了回归、分类等其他小样本预测任务上。
这方面的成果,是DeepMind在下周召开的机器学习顶会ICML上将要展示的两篇论文:
Conditional Neural Processes,发表于ICML 2018;
Marta Garnelo, Dan Rosenbaum, Chris J. Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo J. Rezende, S. M. Ali Eslami
https://arxiv.org/abs/1807.01613
Neural Processes,发表于ICML深度生成模型的理论基础与应用Workshop。
Marta Garnelo, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S.M. Ali Eslami, Yee Whye Teh
https://arxiv.org/abs/1807.01622
这两篇论文所研究的,都是深度神经网络与高斯过程等贝叶斯方法的结合,只需要提供少量数据,就能在回归、分类、图像修补等任务上实现不错的效果。
在这两项神经过程的研究里,都使用了和GQN相似的元学习方法。因此,DeepMind表示,这两项研究都可以视为GQN在新任务上的泛化。
生成连续场景的CGQN
原来的GQN,是根据几张图像来预测3D模型。这种预测能力最邻近的扩展领域,大概就要数视频了。
在一项名为Consistent Generative Query Networks(CGQN)的研究中,DeepMind就基于GQN,实现了输入一串视频,预测一串预测出来的视频续在后边。
论文传送门:
https://t.co/wnKpMjnClx
GQN与注意力的结合
除了原来的3D模型,刚刚提到的回归、分类、视频生成等等,GQN还能用在视觉定位问题上。
在新论文Learning models for visual 3D localization with implicit mapping中,DeepMind探索了两个问题,一是将GQN用在视觉上更复杂的环境中,二是将它用于定位问题。
于是,他们用连续注意力机制对GQN进行了强化,然后用到了Minecraft环境中的定位问题上。
论文传送门:
https://t.co/spkisH866H
根据文字生成场景
只在视觉领域里摸爬滚打还不够,在一篇新论文中,DeepMind把GQN和对自然语言的理解结合了起来,提出了空间语言综合模型(Spatial Language Integrating Model,简称SLIM)。
SLIM能够根据文字描述,在空间中摆放物体,生成一个场景的不同视角。
在上图所示的例子中,SLIM根据描述,生成一个红色球体摆放在蓝色圆锥后边的场景,还能够旋转着展示这个场景在不同角度、不同距离看起来的样子。
论文传送门:
Encoding Spatial Relations from Natural Language
Tiago Ramalho, Tomá? Ko?isky, Frederic Besse, S. M. Ali Eslami, Gábor Melis, Fabio Viola, Phil Blunsom, Karl Moritz Hermann
https://arxiv.org/abs/1807.01670
量子位还将上述提到的5篇论文打了个包,在公众号QbitAI对话界面回复“GQN续”提取。
—完—
相关文章
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比2023-02-17 18:42:49
小米MAX4手机上市日期首发价格 骁龙720打造大屏标准2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠2023-02-16 13:34:45
巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注2023-02-13 16:49:06
人手不足 韵达快递客服回应大量包裹派送异常没有收到2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone142023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了2022-11-19 11:53:50
热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次2022-10-03 22:13:45
苹果美版iPhone可以在中国保修 从哪看怎么查询iPhone的生产日期?2022-09-22 10:00:07










