业界|OpenAI提出新型元学习方法EPG 调整损失函数实现新任务上的快速训练
消息来源:baojiabao.com 作者: 发布时间:2024-05-09
选自OpenAI
机器之心编译
参与:路雪、刘晓坤
刚刚,OpenAI 提出一种实验性元学习方法 Evolved Policy Gradients(EPG),该方法演化学习智能体的损失函数,从而实现在新任务上的快速训练。
OpenAI 发布一种实验性元学习方法 Evolved Policy Gradients(EPG),该方法从学习智能体的损失函数发展而来,可实现在新任务上的快速训练。测试时,使用 EPG 训练的智能体可在超出训练范畴的基础任务上取得成功,比如学习从训练时某物体的位置导航至测试时该物体的位置(房间另一侧)。
论文地址:https://storage.googleapis.com/epg-blog-data/epg_2.pdf
代码地址:https://github.com/openai/EPG
EPG 训练智能体,使其具备如何在新任务中取得进展的先验知识。EPG 没有通过学得的策略网络编码先验知识,而是将其编码为学得的损失函数。之后,智能体就能够使用该损失函数(被定义为时序卷积神经网络)快速学习新任务。OpenAI 展示了 EPG 可泛化至超出分布(out of distribution)的测试任务,其表现与其他流行的元学习算法有质的不同。在测试中,研究人员发现 EPG 训练智能体的速度快于 PPO(一种现成的策略梯度方法)。EPG 与之前为强化学习智能体设计适合的奖励函数的研究(Genetic Programming for Reward Function Search 等)有关,不过 EPG 将这个想法泛化至演化一个完整的损失函数,这意味着损失函数必须高效学习内部的强化学习算法。
EPG 包含两个优化循环。在内部循环中,智能体从头学习解决从一类任务中采样的特定任务。这类任务可能是“移动抓器到某个位置 [x, y]”。内部循环使用随机梯度下降(SGD)来优化智能体策略,对抗外部循环中的损失函数。外部循环评估内部循环学习所得的返回结果,并使用进化策略(ES)调整损失函数的参数,以提出可带来更高返回结果的新型损失函数。
具备学得的损失函数比当前的强化学习方法有多个优势:使用进化策略来演化损失函数允许我们优化真正的目标(最终训练出的策略性能)而不是短期返回结果,EPG 通过调整损失函数适应环境和智能体历史,从而优于标准的强化学习算法。
上图展示了 OpenAI 的方法如何教会机器人反向跳跃,下面的图是 PPO 方法。EPG 带来了智能体的探索行为,智能体在意识到反向行走会带来高奖励之前已经尝试反向行走了。左上的数字表示目前的学习更新次数。注意该视频展示了完整的实时学习过程。
近期出现了大量关于元学习策略的研究,我们必须要问为什么学习损失函数,而不是直接学习策略?学习循环策略可能会使当前任务出现过拟合,而学习策略初始化会在探索时限制表达性。OpenAI 的动机是期望损失函数可以很好地泛化至大量不同任务中。这当然适用于手工调整的损失函数:设计完备的强化学习损失函数(如 PPO 中的损失函数)可以广泛应用于大量任务(从 Atari 游戏到控制机器人)。
为了测试 EPG 的泛化能力,研究者设置了一个简单的实验,演化 EPG 损失直到智能体“蚂蚁”有效地移动到圆形运动场右侧的随机目标位置。然后,固定损失函数,给蚂蚁一个新的目标,这一次是左侧的位置。令人惊讶的是,蚂蚁学会了走到左侧!以下是它们的学习曲线展示(红线):
结果非常好,因为它展示了在“超出训练分布”的任务中的泛化效果。这种泛化很难达到。OpenAI 研究人员将 EPG 与另一种元学习算法 RL2 进行了对比,后者尝试直接学习可用于新型任务的策略。实验表明,RL2 确实可以成功地让智能体走向屏幕右侧的目标。但是,如果测试时的目标是在屏幕左侧,则智能体失败,还是一直向右走。也就是说,其对训练任务设置(即向右走)产生“过拟合”。
上述视频(见原文)展示了 OpenAI 的方法(左)如何从头开始教会机器人行走和到达目标(绿色圈),右侧是 RL2。左上的数字表示目前的学习更新次数。注意该视频展示了 3X 实时速度时的完整学习过程。
和所有的元学习方法一样,该方法仍然存在许多限制。现在,我们可以训练一次性处理一类任务的 EPG 损失函数,例如,让一只蚂蚁左右走。然而,面向这类任务的 EPG 损失函数对其他不同类任务未必有效,例如玩《太空侵略者》游戏。相比之下,标准的 RL 损失具备这种泛化能力,同一损失函数可被用于学习大量不同的技能。EPG 获得了更好的表现,却失去了泛化能力。要想同时得到性能与泛化能力,元学习方法还有很长的路要走。
原文链接:
https://blog.openai.com/evolved-policy-gradients/
本文为机器之心编译,
转载请联系本公众号获得授权
。?------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:editor@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com
相关文章
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状
2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因
2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓
2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?
2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
- 科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯
2023-02-17 18:46:15
- 华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比
2023-02-17 18:42:49
- 小米MAX4手机上市日期首发价格 骁龙720打造大屏标准
2023-02-17 18:37:22
- 武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱
2023-02-16 15:53:18
- 谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
- 巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
- 人手不足 韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
- 资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东
2023-02-02 09:24:38
- 三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
- 华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
- 芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?
2022-12-02 17:25:17
- 华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
- 热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
- 东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
- 苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45