DeepMind最近于自然神经科学期刊中,发表了利用元强化学习(Meta-reinforcement learning)了解多巴胺与学习过程的关系,该研究透过元强化学习网络模拟多巴胺的功能,发现该AI网络能够从过去的经验中,学习抽象的规则,应用到新任务中,有助于强化AI系统一次性学习的成效,并能加速AI学习新任务的速度,就像人类一样,能够活用过去的知识,套用到新的任务上。
最近AI系统的能力已经能够驾驭许多游戏,但是要达到这样的成果,AI还是需要上千个小时的游戏训练,才能在游戏中超越人类的表现,而相较之下,人类却可以在几分钟内,学会玩从来没玩过的游戏。
人类可以用很少的知识做很多新的事的特性,这种学习能力被称之为元学习(Meta-learning)或是学会学习(Learning to learn),人类的学习分为长期和短期,短期将会聚焦于特定的案例,而长期则是会学习抽象的技能和规则来完成别的任务,人类就是结合了两种学习方式,因此在面对新的任务时,可以很快又有弹性地处理新任务。
DeepMind将人类学会学习的能力套用到AI系统中,并称之为元强化学习,实验成果显示该方法能够强化AI系统一次性学习的成效,并能加速AI学习新任务的速度。不过,人类大脑的学习机制在神经科学中仍然还无法解释。
DeepMind的研究中,透过元强化学习框架来研究多巴胺(Dopamine)在大脑中帮助人类学习的作用,多巴胺通常被称为大脑快乐的讯号,对应到AI系统中,类似用来评断预测误差的奖励讯号,AI系统会依据奖励机制反复训练。
而DeepMind认为,多巴胺不仅是利用奖励机制来理解就过去完成任务的行为,更是能够让人类快速、有效地学习新任务的关键。
因此,DeepMind为了要测试这个想法,用模拟的方式重新建立神经科学领域的6个Meta-learning实验,每个代理网络都有相同的技能和规则,并要求代理网络执行任务。
首先,研究团队透过标准的深度强化学习(代表多巴胺的角色),训练了一个递归神经网络(代表前额叶皮质),接着,将递归神经网络的表现,与之前在神经科学实验中得到的实际数据进行比较,结果显示,递归神经网络对于Meta-learning是好的代理网络,因为网络能够将过去的行为和观察内化,在从事多种不同任务时,应用这些过去的经验。
另外,研究团队也重建了探索Meta-learning概念的哈洛(Harlow)实验,原本的实验测试中,给予一群猴子选择两个不熟悉的物体,只有其中一个有提供食物的奖励,总共会进行6次测试,每次都会随机更换两个物体左右的位置,让猴子学习辨识哪一个物体会给予食物的奖励。
经过训练后,猴子会发展出一套策略来选择有奖励的物体,第一次先随机选一个物体,接下来再根据有无奖励的结果来选择特定物体,而不是选择左右边来选择,这项实验说明了猴子会内化潜在的规则,学习抽象的规则结构,也就是学会学习的概念。
当研究团队用虚拟电脑屏幕模拟类似的实验,并随机选择图像,实验发现,元强化学习的代理网络能够像哈洛实验中的猴子一样学习,即便是给予从未出现过的图像,代理网络也能正确选出有奖励的图像。
该研究发现,大部分的学习行为在递归神经网络中进行,证实了研究团队的论点,多巴胺在Meta-learning中扮演非常重要的角色,过去,多巴胺被认为能够增强前额叶系统的突触连结,强化完成特定任务的行为。
在AI系统中,这项实验结果代表,当AI学会解决任务的正确方法时,类似多巴胺的奖励讯号调整了人工突触的权重,不过,在实验中,神经网络的权重却被冻结,不能在学习的过程中调整权重,但元强化学习的代理网络还是可以解决新任务,也就是说,类似多巴胺的奖励讯号不只依赖调整权重,还能传递抽象技能和规则的重要讯息,来快速适应新任务。
神经科学家过去就已经观察到,前额叶皮质的神经活动能够让人类快速适应新任务,但是还没找到充分的原因解释,而DeepMind的实验发现前额叶皮质不是依赖调整神经突触的权重来学习规则的架构,而是用了多巴胺来转译抽象的规则讯息。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09