APP下载

Random Network Distillation (RND),平台OpenAI游戏改良增强学习技术

消息来源:baojiabao.com 作者: 发布时间:2024-04-20

报价宝综合消息Random Network Distillation (RND),平台OpenAI游戏改良增强学习技术

OpenAI发表了RND(Random Network Distillation),以基于预测的方法,透过好奇心带领增强学习代理人探索环境。OpenAI提到,这是首次人工智能游玩“蒙特祖马的复仇”(Montezuma’s Revenge)这款游戏,能够超过人类的平均表现,而且不需要人类示范,就能完成第一关。

OpenAI提到,要让人工智能代理人实现预设的目标,必须要使其探索环境中可能存在的内容以及完成目标的元素。不少游戏的奖励讯号都提供了一个课程(Curriculum),只要简单的探索策略就可以实现游戏目标,而之所以“蒙特祖马的复仇”对于人工智能是一个重要的指标,是因为在应用DQN算法中,“蒙特祖马的复仇”是唯一一款远低于人类平均得分的游戏,只使用简单的探索策略,是无法在游戏中收集到任何奖励的,或是仅能探索游戏世界24个房间的一小部分。

在2016年,OpenAI透过将DQN结合基于计数的探索奖励,而使整体结果大幅前进,让人工智能代理人可以探索15个房间,最高获得6.6K的分数,平均达3.7K,但从那之后,增强学习代理所获得明显的分数改进,都来自于人类专家的展示或是存取模拟器的基础状态。

而RND的发展,再次大幅推进了成果,让人工智能游玩“蒙特祖马的复仇”的分数正式超过人类,而且还能完整探索24个房间。OpenAI以1,024个Workers进行了大规模的RND实验,在9次的实验中平均分数达10K,最佳平均值达14.5K,每次实验都能发现20到22个房间。另外,OpenAI还进行了一个较小规模但时间较长的实验,人工智能最佳分数达17.5K,通过第一级关卡并且探索完24个房间,OpenAI提到,好奇心驱使人工智能代理人发现新房间,并找到提高游戏分数的方法。

这个好奇心的机制,OpenAI使用之前与柏克莱大学一同研发基于预测的奖励方法,代理人从经验中学习下一个状态的预测模型,并使用预测误差作为内在奖励。Google在不久前,发表了基于情境记忆模型,以提供增强学习获得类似好奇心的奖励以探索环境,扩展增强学习可以解决问题的范围,Google提到,基于预测的内在奖励机制,有机会让代理人产生自我放纵获取即时满足感的现象。

OpenAI特别解释,虽然基于预测的好奇心模型,在Unity的模拟迷宫中,的确会在电视机关中发生问题,透过不停预测随机的电视频道以获得高内在奖励,但是该算法应用在“蒙特祖马的复仇”这类大型确定性的环境仍是没有问题的,好奇心会驱使代理人发现新房间,并且与物体互动。



2018-11-06 16:36:00

相关文章