Google AI团队最近发表了透过自动强化学习技术,训练长程跑腿机器人导航的成果,将强化学习搜寻奖励和神经网络架构的过程自动化,使机器人能够在长距离的范围中导航,Google指出,在美国就有300万人因为行动不便而无法离开家,具有远距导航功能的服务型机器人能够改善行动不便的生活限制,像是帮忙采买生活用品、药品和领包裹,过去的研究已经展示深度强化学习能够有效地将感测器收集的资料转化为行动,例如,让机器人学会抓取物品,或是控制机器人的活动,不过,深度学习程式通常缺乏对大量实际物理空间的理解,因此,在长距离的导航任务中,无法脱离人类的协助,也无法轻松地适应新的环境。
在Google AI研究团队近期发表的3篇有关机器人导航的论文中,Google整合深度强化学习技术和长范围的规划,来研究能够适应新环境的自动化机器人系统,首先Google训练局部规划程式(local planners)学会基本的导航任务,也就是在短距离的范围中,穿越在障碍物中,且不能撞到障碍物,局部规划程式将光学雷达感测器收集到的资料,像是线性和角速度(angular velocity)资讯,输出至机器人控制系统,同时,Google也用自动强化学习(AutoRL)训练了另一个局部规划程式,AutoRL是一个能够自动搜寻强化学习奖励和神经网络架构的方法,虽然机器人的限制只有10~15米,但是局部规划程式在转移到真正的机器人和全新的环境时,适应表现相当好,有鉴于该结果,Google用局部规划程式作为大空间导航系统的模块,接着,建立以节点表示位置的地图,当局部规划程式能够可靠地模仿真实机器人的活动时,节点之间才会用线连接。
AutoRL是什么?
Google在第一篇研究机器人导航的论文中,在小型且静态的环境当中训练了局部规划程式,透过一般的深度强化学习算法来训练机器人导航,像是深度确认性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),但是这个方法还是有许多挑战,例如,研究人员必须不断重复手动调整奖励机制和制定神经网络架构,来达到导航程式的目标,但是这些调整都没有明确的最佳试验,再加上深度确认性策略梯度算法是不稳定的学习方法,通常会出现灾难性遗忘(catastrophic forgetfulness)问题。
为了克服这些挑战,Google将强化学习训练自动化,利用大规模超参数优化方法,开发了能够自动搜寻奖励机制和神经网络架构的AutoRL,AutoRL的运作分为两个部分:奖励机制搜寻和神经网络架构探索,在奖励机制搜寻的阶段中,AutoRL会训练一群DDPG程式,每一个程式都有不同的奖励机制,用来优化局部规划程式的最中目标,也就是到达目的地,在这个阶段的最后,Google会选出一个能够让局部规划程式到达目的地最多次的奖励机制,而在搜寻的神经网络架构的阶段则是用选出的奖励机制和优化神经网络层,针对奖励机制不断进行优化。
不过,这样迭代的过程也意味着AutoRL有样本效率(sample efficient)的问题,训练一个规划程式需要500万个样本,而AutoRL训练10个100个程式的版本就需要50亿个样本,等于要花32年的时间才能完成训练,而好处就是AutoRL将手动训练的过程自动化,且DDPG程式也不会出现灾难性遗忘问题,更重要的是,利用AutoRL训练的机器人导航系统能够适应新环境,与其他导航方式相比,AutoRL方式的导航成功率多了26%。
为了能够将这些导航策略应用在长距离的导航任务中,Google整合AutoRL策略和采样式规划(sampling-based planning)算法,采样式规划算法是利用估算机器人运动方式,来处理长程导航任务,举例来说,随机路径规划算法(probabilistic roadmaps,PRMs)在路线图中搜寻有效路径,来建置机器人运动的路线图。Google团队首先针对每个机器人,在一般模拟的环境训练了一套局部规划策略,接着,再根据局部规划策略,为部署环境建立PRMs模型,Google称之为PRM-RL,为了建置PRM-RL,Google用蒙特卡罗模拟方法,将路径规划程式能够可靠且一致地导航经过的采样节点连接起来。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09