APP下载

用航拍和地面观测资料 GoogleDeepMind AI可在陌生区域导航

消息来源:baojiabao.com 作者: 发布时间:2026-05-26

报价宝综合消息用航拍和地面观测资料 GoogleDeepMind AI可在陌生区域导航

【猎云网】6月18日报道(编译:柠萌)

如果有足够的训练资料,街道导航人工智能是否能够了解之前没看过的街区?这就是Google母公司Alphabet旗下DeepMind的科学家们在预印本服务器Arxiv.org上发表的一篇新论文《街道导航的跨检视策略学习》中所做的研究。在论文中,他们描述了一个过程:借助自上向下的视觉资讯,将一个经过地面检视语料库训练的人工智能策略转移到城市的目标区域。他们表示,这种方法可以产生更好的泛化效果。

该论文的合著者说,这项研究的灵感来自于他们的观察结果,那就是人类可以通过阅读地图快速适应一个新城市。

“对一个陌生环境进行视觉观察,并从中获得导航的能力是智慧代理的核心元件,也是一个持续的挑战。到目前为止,如果街道导航代理没有经过广泛的再训练,就无法转移到没看过的区域,而且依赖于模拟并不是一个可扩充套件的解决方案,”他们写道。“我们的核心理念是将地面视角与空中视角结合起来,学习一种可以在不同视角之间转换的联合策略。”

研究人员首先收集了区域航拍地图,并根据相应的地理座标与街道水平的检视进行配对。接下来,他们开始了一项由三部分组成的迁移学习任务,第一步是对源区域资料进行训练,第二步使用空中检视目标区域观测进行适应,最后一步是使用地面检视观测向目标区域进行迁移。

该团队的机器学习系统由三个模组组成,包括负责视觉感知的卷积模组、捕捉特定位置特征的长短时记忆(LSTM)模组和生成动作分布的策略递回神经模组。该系统部署在StreetAir上,这是一个建立在StreetLearn之上的多视角户外街道环境。StreetLearn是一个互动的第一人称集合,收集了来自Google街景和Google地图的全景街景照片。在StreetAir和StreetLearn中,航拍图片覆盖纽约(纽约市中心和纽约中城)和匹兹堡(阿勒格尼和卡内基梅隆大学的校园)。航拍影象的排列方式是这样的:在每个经纬度座标上,返回一个84x84的航拍影象,其大小与以该位置为中心的地面检视影象相同。

人工智能系统一旦接受训练,就会学习如何定位自己,以及如何在给定目标目的地经纬度座标的全景图中导航。每边2-5公里范围内的全景图间隔约10米,AI导航代理每转一圈可以有五种动作:向前移动,向左或向右转22.5度,向左或向右转67.5度。当到达距离目标100至200米的地方时,这些代理会得到奖励,以加强那些能够快速准确穿越目标的行为。

在实验中,利用航拍影象来适应新环境的代理在达到1亿步时获得了190个奖励指标,在2亿步时获得了280个奖励指标,这两种都明显高于只使用地面检视资料的代理(在1亿步时奖励50个指标,在2亿步时奖励200个)。研究人员表示,这表明他们的方法显著提高了代理获取目标城市区域资讯的能力。

研究小组写道:“我们的研究结果表明,与单检视(地面检视)代理相比,我们提出的方法将代理转移到了未见过的区域,这些区域具有更高的零达标奖励(在空载的地面检视环境中不进行训练的转移)和更好的整体效能(在转移过程中不断训练)。”

2019-12-10 12:57:00

相关文章