人工智能越来越会玩游戏了,除了Dota2全人工智能代理人(Agent)OpenAI Five团队已经可以打败人类外,OpenAI的最新研究,人工智能代理人只要看过人类示范游玩蒙特祖马的复仇(Montezuma’s Revenge)一次,便能学习游玩技巧并获得74,500的高分。而与其他研究不同的是,OpenAI不再要求代理人(AI玩家)模仿人类行为,而是更直觉的对取得高分的行为做最佳化。
OpenAI使用了简单的算法,只要从人类游戏示范中挑选一段适当的状态(阶段),这个状态指的是某一段游戏示范的历程,代理人再接着状态后继续游玩,并在示范过程使用近端政策最佳化(Proximal Policy Optimization,PPO)的增强学习,如此就能达到与人类相当的游玩程度。
OpenAI提到,要解决使用增强学习的问题,有两个重点,第一是属于探索问题,为了找出一系列趋向正面奖励的行动,第二则是学习问题,代理人要可以记得行动序列,并在些微不同的情况下稍微改变策略。
而探索是一件困难的事,一般常用的策略是,借由采取随机行动以政策梯度(Policy Gradients)或是Q-learning这类无模型的增强学习方法进行探索。最佳的情况为,刚好随机选择到了有益的行动而获得奖励,那这些行动便会被增强,代理人未来将有更大的概率选择这些有益的行动。当随机行动的奖励足够频繁,随机行动便更容易以合理的概率获得奖励。但OpenAI指出,像蒙特祖马的复仇这类复杂的游戏,需要比较长序列的具体行动才能获得奖励时,要随机到特定序列的行动组合简直不可能发生。
尽管无模型增强学习适合短序列行动,难以应付长序列的行动,OpenAI表示,他们的策略则是将大任务拆成许多子任务,这些子任务就可以用短序列行动解决。OpenAI都以人类的示范,开始每一个增强学习的章节(Episode)。
在训练初期,代理人在示范结束时,开始每一增强学习训练章节,一旦代理人能在至少20%剩余游戏部分中,击败或是与示范者的得分平手,便开始把代理人游戏的起始点往前移动,这个过程不停重复,直到代理人不再需要使用示范,而这也表示这个代理人已经能够打败人类,最糟的状况也只会跟人类打成平手。
透过渐渐的把代理人游戏起始点往前移的过程,代理人已经能够解决大部分剩余的游戏,便能确保其遇到的都是简单的探索问题,OpenAI提到,他们将增强学习的问题解释为动态程式设计的一种形式,也就是当要从由N个行动组合而成的特定序列获得奖励,则这个序列能以线性而非指数时间被学习。研究人员指出,代理人有人类示范,对于成果好坏至关重要。
由于Google旗下DeepMind,最近也展示了人工智能游玩蒙特祖马的复仇这款游戏的成果,OpenAI表示,DeepMind是以模仿学习(Imitation Learning)来学习游戏,这个方法的优点是,他们不需要对执行环境进行控制,不需要特别设置游戏的状态(阶段),而且不会假设代理人会遭遇到人类示范中的所有游戏状态,但缺点就在于,这方法让代理人去学习人类的行为,而这也只会让代理人的游戏技巧顶多跟人类一样。
OpenAI的方法直接对游戏的目标,也就是分数做最佳化,而非仅要代理人模仿人类行为,OpenAI强调,他们的方法不会过度适应潜在的次优示范,并可以在多玩家游戏中仍然获得优势。该方法所使用的PPO与OpenAI Five相同。这个研究的价值在于,允许代理人偏离示范行为,因此有机会考虑人类示范者没有想过的解决方案。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09