APP下载

Google用自动强化学习方法训练长程跑腿机器人

消息来源:baojiabao.com 作者: 发布时间:2024-05-15

报价宝综合消息Google用自动强化学习方法训练长程跑腿机器人
图片来源: 

Google

Google AI团队最近发表了透过自动强化学习技术,训练长程跑腿机器人导航的成果,将强化学习搜寻奖励和神经网络架构的过程自动化,使机器人能够在长距离的范围中导航,Google指出,在美国就有300万人因为行动不便而无法离开家,具有远距导航功能的服务型机器人能够改善行动不便的生活限制,像是帮忙采买生活用品、药品和领包裹,过去的研究已经展示深度强化学习能够有效地将感测器收集的资料转化为行动,例如,让机器人学会抓取物品,或是控制机器人的活动,不过,深度学习程式通常缺乏对大量实际物理空间的理解,因此,在长距离的导航任务中,无法脱离人类的协助,也无法轻松地适应新的环境。

在Google AI研究团队近期发表的3篇有关机器人导航的论文中,Google整合深度强化学习技术和长范围的规划,来研究能够适应新环境的自动化机器人系统,首先Google训练局部规划程式(local planners)学会基本的导航任务,也就是在短距离的范围中,穿越在障碍物中,且不能撞到障碍物,局部规划程式将光学雷达感测器收集到的资料,像是线性和角速度(angular velocity)资讯,输出至机器人控制系统,同时,Google也用自动强化学习(AutoRL)训练了另一个局部规划程式,AutoRL是一个能够自动搜寻强化学习奖励和神经网络架构的方法,虽然机器人的限制只有10~15米,但是局部规划程式在转移到真正的机器人和全新的环境时,适应表现相当好,有鉴于该结果,Google用局部规划程式作为大空间导航系统的模块,接着,建立以节点表示位置的地图,当局部规划程式能够可靠地模仿真实机器人的活动时,节点之间才会用线连接。

AutoRL是什么?

Google在第一篇研究机器人导航的论文中,在小型且静态的环境当中训练了局部规划程式,透过一般的深度强化学习算法来训练机器人导航,像是深度确认性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),但是这个方法还是有许多挑战,例如,研究人员必须不断重复手动调整奖励机制和制定神经网络架构,来达到导航程式的目标,但是这些调整都没有明确的最佳试验,再加上深度确认性策略梯度算法是不稳定的学习方法,通常会出现灾难性遗忘(catastrophic forgetfulness)问题。

为了克服这些挑战,Google将强化学习训练自动化,利用大规模超参数优化方法,开发了能够自动搜寻奖励机制和神经网络架构的AutoRL,AutoRL的运作分为两个部分:奖励机制搜寻和神经网络架构探索,在奖励机制搜寻的阶段中,AutoRL会训练一群DDPG程式,每一个程式都有不同的奖励机制,用来优化局部规划程式的最中目标,也就是到达目的地,在这个阶段的最后,Google会选出一个能够让局部规划程式到达目的地最多次的奖励机制,而在搜寻的神经网络架构的阶段则是用选出的奖励机制和优化神经网络层,针对奖励机制不断进行优化。

不过,这样迭代的过程也意味着AutoRL有样本效率(sample efficient)的问题,训练一个规划程式需要500万个样本,而AutoRL训练10个100个程式的版本就需要50亿个样本,等于要花32年的时间才能完成训练,而好处就是AutoRL将手动训练的过程自动化,且DDPG程式也不会出现灾难性遗忘问题,更重要的是,利用AutoRL训练的机器人导航系统能够适应新环境,与其他导航方式相比,AutoRL方式的导航成功率多了26%。

为了能够将这些导航策略应用在长距离的导航任务中,Google整合AutoRL策略和采样式规划(sampling-based planning)算法,采样式规划算法是利用估算机器人运动方式,来处理长程导航任务,举例来说,随机路径规划算法(probabilistic roadmaps,PRMs)在路线图中搜寻有效路径,来建置机器人运动的路线图。Google团队首先针对每个机器人,在一般模拟的环境训练了一套局部规划策略,接着,再根据局部规划策略,为部署环境建立PRMs模型,Google称之为PRM-RL,为了建置PRM-RL,Google用蒙特卡罗模拟方法,将路径规划程式能够可靠且一致地导航经过的采样节点连接起来。

2019-03-04 12:42:00

相关文章