迁移学习比赛:OpenAI喊你重温音速小子索尼克
消息来源:baojiabao.com 作者: 发布时间:2026-02-14

Root 编译自 OpenAI
量子位 出品 | 公众号 QbitAI
一直以来,在典型的强化学习研究里,常拿怀旧小游戏训练算法。
可算法的训练和测试环境都是同一个,这就会让那些本身带有超参数和靠死记硬背的算法获得不错的结果。
为了解决这个问题,OpenAI办了一个迁移学习的比赛,让大家训练出的AI智能体去玩世嘉经典“音速小子索尼克”,看哪个智能体能在从没见过的关卡里获得最佳的表现。
OpenAI会给你一个训练集,是一系列刺猬索尼克的关卡。然后用特定为这次比赛制作的测试集来评估你的算法。
这个比赛从4月5号开始,到6月5号截止,为期两个月。
比赛用的数据集Gym Retro,是一个整合经典电动游戏到Gym的全新平台,目前已包含30个世嘉创世的游戏。
为了方便大家上手,OpenAI放出了Retro的基线表现,这样大家就能get到怎么用强化算法去跑这些比赛的任务了。
Retro比赛测试集的基线结果显示,即使用了迁移学习,强化学习算法的表现依然比人类水平差很远。红色那根水平虚线是人类玩家的表现,这还是人类玩了一小时的结果,而算法已经玩了18个小时。
在训练的时候,你可以用任何环境和数据集。但测试期间只有18个小时(100万时步)去过每个没见过的关卡。听起来,18个小时过一关很长,但对现在比人类玩家弱鸡的强化学习模型来说,这个训练时间捉襟见肘。
音速小子索尼克
为了把基准表现描述得更具体些,以及提供一些基线结果,OpenAI给出了一份技术报告:Gotta Learn Fast:A New Benchmark for Generalization in RL。
地址:https://storage.googleapis.com/agi-data/blog/gym-retro/contest-tech-report.pdf
从这份报告里除了能看到基准表现,还可以看到跑彩虹DQN,PRO和简单随机猜测算法JERK的结果。
JERK的表现代表了专门为刺猬索尼克作出优化尝试而采取的一系列随机行为,随着训练时间增长,索尼克会更频繁地使用那些能拿高分的行为。
同时,OpenAI也发现,通过训练时获得的经验可以显著提高PRO在测试中的表现。
尤其是在训练阶段有预训练网络以及测试阶段有精细地微调的话,它的表现能翻番,甚至比最强的基线结果还要好。
虽然这并不是首个把迁移学习成功用在强化学习的例子,但是能看到迁移学习能有那么厉害和稳定的作用也是很让人亦可赛艇的事儿。
要算法达到人类的表现,还有很长的一段路要走。
像上面提到的,人类玩家只要训练两个小时,测试时玩个一小时所拿到的分数都远远高于用了迁移学习的强化学习算法。
Gym Retro的Beta版
OpenAI放出的Gym Retro是一个打包了一堆经典的电子游戏的系统,给强化学习模型提供一个环境。最初放出的这一版里有从世嘉创世Steam的老游戏大包里挑出的30个游戏,还有雅达利2600里Arcade Learning Environment里的62个游戏。
近五年来,Arcade Learning Environment是强化学习研究的主要驱动力。它是一个强化学习和雅达利2600的交互界面集合。这些雅达利的游戏,相比于之前强化学习的基准来说,要更复杂多变,也是之前设计来挑战人类玩家的运动控制技能和解决问题的能力。
Gym Retro的Beta版采用了比雅达利更先进的控制台,拓展了适合强化学习研究的游戏的数量和复杂度。世嘉创世里的游戏很多关在很多维度上都类似,比方是物理层面,物体的外观等等,而在材质上不同。
对迁移学习来说,这就是非常理想的测试环境了。它还有一点比雅达利游戏要好的是,能够用上更好的创世里的硬件,比方说,内存容量是雅达利的500倍,可以获得更大范围的控制输入,以及支持更好的画面。
Gym Retro系统是受到怀旧学习环境的启发,不过会更加复杂。比方说,如果你想更细致地定义环境,可以不再用C++了,用JSON文件就能搞定。这对新游戏整合来说更容易了。
Gym Retro是OpenAI团队第二次尝试搭建大型的强化学习环境数据集。其中一些理念出自于2016年下半年的Universe,不过因为Universe环境的运行不是同步,而是实时的,所以OpenAI团队无法取到满意的结果。
Universe简介:https://blog.openai.com/universe
Gym Retro就拓展了Arcade Learning Environment的模型,使其适配更多的游戏。
Gym Retro系统GitHub地址:https://github.com/openai/retro#gym-retro
有些时候,算法也很鸡贼。像经PRO训练的策略就发现索尼克不断往右挪就能直接穿墙,这样可以获得更高的分数。
这就是一个典型的,奖赏机制是怎么导致AI智能体做出些奇奇怪怪的行为例子。
BTW,测试集一共有两个,一个是能影响比赛进行过程中的排行榜,另外一个是只用于最后排名的。另外,OpenAI建议参赛者采用分开的训练集、测试集的默认关卡,大家可以从技术报告中看到所有的训练测试结果以及学习曲线。
参赛规则
训练你码好的AI智能体去玩刺猬索尼克,然后向OpenAI提交你的成果(用Docker容器)。然后OpenAI会用上述的神秘测试集去测你AI的表现,你将会在排行榜上看到你AI的分数。整个过程看下图。
最后,附比赛报名地址:
https://contest.openai.com/
—完—
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
相关文章
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比2023-02-17 18:42:49
小米MAX4手机上市日期首发价格 骁龙720打造大屏标准2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠2023-02-16 13:34:45
巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注2023-02-13 16:49:06
人手不足 韵达快递客服回应大量包裹派送异常没有收到2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone142023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了2022-11-19 11:53:50
热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次2022-10-03 22:13:45
苹果美版iPhone可以在中国保修 从哪看怎么查询iPhone的生产日期?2022-09-22 10:00:07










