APP下载

DeepMind揭露新一代AI系统MuZero:不知游戏规则也能有效规划行动

消息来源:baojiabao.com 作者: 发布时间:2026-05-26

报价宝综合消息DeepMind揭露新一代AI系统MuZero:不知游戏规则也能有效规划行动
图片来源: 

DeepMind

Alphabet旗下的人工智能子公司DeepMind,继发表了围棋AI系统AlphaGo,以及同时精通围棋、国际象棋与将棋的AlphaZero之后,于本周再度揭露了新一代AI系统MuZero,它能够在完全不知规则的情况下,熟悉围棋、国际象棋、将棋,以及57款Atari游戏,且效能大幅超越了现有最佳的DQN、R2D2与Agent57系统,可望用来解决现实生活中,规则太复杂或完全不知规则的各式难题。

比较DeepMind的几代产品,2016年的AlphaGo是透过已知的规则、围棋领域的知识,再加上人类资料训练而成,让它击败了全球的围棋好手;2017年的AlphaGo Zero,则是仅利用已知规则,自我学习而达到与AlphaGo同样的境界;2018年的AlphaZero也是仅基于已知规则,但把挑战范围从围棋扩大到国际象棋与将棋,便能同时精通这3项棋戏;而最新的MuZero则未被喂入任何的已知规则,在未知的动态环境下就能自动学习规则并作出最佳判断,且MuZero系统把挑战范围从上述的围棋/国际象棋/将棋,扩大到Atari出品的57款游戏,并取得优秀的成绩。

DeepMind团队说明,规划是人类智慧的一项重要能力,让人类能够解决问题并替未来作出决策,人类通常很快就可以学到计划的能力,同时也能延伸到新的场景,而这也是该团队期许AI系统能够达到的。

研究人员最初试着透过两种作法来解决此一问题,包括超前搜寻(lookahead search)与基于模型的规划能力,但前者必须仰赖诸如规则或精确模拟器等环境动态的知识,让它难以适用于解决复杂且通常缺乏简单规则的现实世界问题;后者虽然可借由学习环境动态的精确模型来进行计划,但针对环境的每一方面来建模,则无法满足视觉丰富的领域,例如Atari,迄今针对Atari的最佳解决方案为非模型的AI系统,包括DQN、R2D2与Agent57,它们并非使用学习模型,而是推测下一步的最佳作法。

于是MuZero摒弃了上述两种方式,采用了截然不同的作法,它只针对系统决策程序的重要因素来建模。研究人员形容,人类的规划能力呈现在当看到乌云时,即推测可能会下雨便带了把伞,MuZero的逻辑则在于,了解伞能够让人们保持干燥,比针对空气中的雨滴进行建模更有用。

因此,MuZero的模型着重在能够协助规划的环境变动因素,包括现在位置的价值、最佳行动的政策,以及上一个行动的成效,借由深度神经网络进行学习,以理解当采取特定行动时所产生的结果,并据此展开规划。

DeepMind团队测试了MuZero在围棋、国际象棋、将棋与Atari游戏上的效能,发现它替强化学习算法设立了全新的水平,不仅于棋戏项目达到与AlphaZero同样的效能水准,在Atari游戏上更凌驾了所有现有的最佳系统。

此外,该团队也发现,要是赋予MuZero更多的思考(演算)时间,例如原本移动围棋每个棋子的时间为1/10秒,在将它拉长至50秒之后,MuZero在围棋上的技能将增加 1000 Elo,两者之间的差距就如同一个厉害的业余玩家,以及一个世界最强的专业棋手。

同样的,在Atari其中一款游戏《小精灵小姐》(Ms Pac-Man)上进行测试时,MuZero在每个行动上可选择5~50个数量的规划模拟,结果显示所选择的规划数量愈多,MuZero就能学习得更快,也能取得更好的效能;有趣的是,若将MuZero的每个行动限制在只能选择6或7个规划模拟,它同样能够达到优秀的效能,透露出MuZero可在情况与行动之间进行归纳,而不一定要搜寻所有的可能性。

研究人员认为,当MuZero具备学习环境模型的能力,并用它来进行规划时,呈现的是强化学习与通用算法上的重大进步,AlphaZero已被用来解决化学或量子物理等问题,而MuZero将可用来解决机器人、工业系统或其它未知规则的混乱现实环境中,所存在的新挑战。

2020-12-24 15:53:00

相关文章