Random Network Distillation (RND),平台OpenAI游戏改良增强学习技术

消息来源:baojiabao.com 作者: 发布时间：2024-04-20

报价宝综合消息Random Network Distillation (RND),平台OpenAI游戏改良增强学习技术

OpenAI发表了RND（Random Network Distillation），以基于预测的方法，透过好奇心带领增强学习代理人探索环境。OpenAI提到，这是首次人工智能游玩“蒙特祖马的复仇”(Montezuma’s Revenge)这款游戏，能够超过人类的平均表现，而且不需要人类示范，就能完成第一关。

OpenAI提到，要让人工智能代理人实现预设的目标，必须要使其探索环境中可能存在的内容以及完成目标的元素。不少游戏的奖励讯号都提供了一个课程（Curriculum），只要简单的探索策略就可以实现游戏目标，而之所以“蒙特祖马的复仇”对于人工智能是一个重要的指标，是因为在应用DQN算法中，“蒙特祖马的复仇”是唯一一款远低于人类平均得分的游戏，只使用简单的探索策略，是无法在游戏中收集到任何奖励的，或是仅能探索游戏世界24个房间的一小部分。

在2016年，OpenAI透过将DQN结合基于计数的探索奖励，而使整体结果大幅前进，让人工智能代理人可以探索15个房间，最高获得6.6K的分数，平均达3.7K，但从那之后，增强学习代理所获得明显的分数改进，都来自于人类专家的展示或是存取模拟器的基础状态。

而RND的发展，再次大幅推进了成果，让人工智能游玩“蒙特祖马的复仇”的分数正式超过人类，而且还能完整探索24个房间。OpenAI以1,024个Workers进行了大规模的RND实验，在9次的实验中平均分数达10K，最佳平均值达14.5K，每次实验都能发现20到22个房间。另外，OpenAI还进行了一个较小规模但时间较长的实验，人工智能最佳分数达17.5K，通过第一级关卡并且探索完24个房间，OpenAI提到，好奇心驱使人工智能代理人发现新房间，并找到提高游戏分数的方法。

这个好奇心的机制，OpenAI使用之前与柏克莱大学一同研发基于预测的奖励方法，代理人从经验中学习下一个状态的预测模型，并使用预测误差作为内在奖励。Google在不久前，发表了基于情境记忆模型，以提供增强学习获得类似好奇心的奖励以探索环境，扩展增强学习可以解决问题的范围，Google提到，基于预测的内在奖励机制，有机会让代理人产生自我放纵获取即时满足感的现象。

OpenAI特别解释，虽然基于预测的好奇心模型，在Unity的模拟迷宫中，的确会在电视机关中发生问题，透过不停预测随机的电视频道以获得高内在奖励，但是该算法应用在“蒙特祖马的复仇”这类大型确定性的环境仍是没有问题的，好奇心会驱使代理人发现新房间，并且与物体互动。