模拟大脑学习过程，DeepMind用强化学习神经网络找出人类内化过去经验解决新任务的关键最新消息

模拟大脑学习过程，DeepMind用强化学习神经网络找出人类内化过去经验解决新任务的关键

消息来源:baojiabao.com 作者: 发布时间：2024-05-30

报价宝综合消息模拟大脑学习过程，DeepMind用强化学习神经网络找出人类内化过去经验解决新任务的关键

DeepMind最近于自然神经科学期刊中，发表了利用元强化学习（Meta-reinforcement learning）了解多巴胺与学习过程的关系，该研究透过元强化学习网络模拟多巴胺的功能，发现该AI网络能够从过去的经验中，学习抽象的规则，应用到新任务中，有助于强化AI系统一次性学习的成效，并能加速AI学习新任务的速度，就像人类一样，能够活用过去的知识，套用到新的任务上。

最近AI系统的能力已经能够驾驭许多游戏，但是要达到这样的成果，AI还是需要上千个小时的游戏训练，才能在游戏中超越人类的表现，而相较之下，人类却可以在几分钟内，学会玩从来没玩过的游戏。

人类可以用很少的知识做很多新的事的特性，这种学习能力被称之为元学习（Meta-learning）或是学会学习（Learning to learn），人类的学习分为长期和短期，短期将会聚焦于特定的案例，而长期则是会学习抽象的技能和规则来完成别的任务，人类就是结合了两种学习方式，因此在面对新的任务时，可以很快又有弹性地处理新任务。

DeepMind将人类学会学习的能力套用到AI系统中，并称之为元强化学习，实验成果显示该方法能够强化AI系统一次性学习的成效，并能加速AI学习新任务的速度。不过，人类大脑的学习机制在神经科学中仍然还无法解释。

DeepMind的研究中，透过元强化学习框架来研究多巴胺（Dopamine）在大脑中帮助人类学习的作用，多巴胺通常被称为大脑快乐的讯号，对应到AI系统中，类似用来评断预测误差的奖励讯号，AI系统会依据奖励机制反复训练。

而DeepMind认为，多巴胺不仅是利用奖励机制来理解就过去完成任务的行为，更是能够让人类快速、有效地学习新任务的关键。

因此，DeepMind为了要测试这个想法，用模拟的方式重新建立神经科学领域的6个Meta-learning实验，每个代理网络都有相同的技能和规则，并要求代理网络执行任务。

首先，研究团队透过标准的深度强化学习（代表多巴胺的角色），训练了一个递归神经网络（代表前额叶皮质），接着，将递归神经网络的表现，与之前在神经科学实验中得到的实际数据进行比较，结果显示，递归神经网络对于Meta-learning是好的代理网络，因为网络能够将过去的行为和观察内化，在从事多种不同任务时，应用这些过去的经验。

另外，研究团队也重建了探索Meta-learning概念的哈洛（Harlow）实验，原本的实验测试中，给予一群猴子选择两个不熟悉的物体，只有其中一个有提供食物的奖励，总共会进行6次测试，每次都会随机更换两个物体左右的位置，让猴子学习辨识哪一个物体会给予食物的奖励。

经过训练后，猴子会发展出一套策略来选择有奖励的物体，第一次先随机选一个物体，接下来再根据有无奖励的结果来选择特定物体，而不是选择左右边来选择，这项实验说明了猴子会内化潜在的规则，学习抽象的规则结构，也就是学会学习的概念。

当研究团队用虚拟电脑屏幕模拟类似的实验，并随机选择图像，实验发现，元强化学习的代理网络能够像哈洛实验中的猴子一样学习，即便是给予从未出现过的图像，代理网络也能正确选出有奖励的图像。

该研究发现，大部分的学习行为在递归神经网络中进行，证实了研究团队的论点，多巴胺在Meta-learning中扮演非常重要的角色，过去，多巴胺被认为能够增强前额叶系统的突触连结，强化完成特定任务的行为。

在AI系统中，这项实验结果代表，当AI学会解决任务的正确方法时，类似多巴胺的奖励讯号调整了人工突触的权重，不过，在实验中，神经网络的权重却被冻结，不能在学习的过程中调整权重，但元强化学习的代理网络还是可以解决新任务，也就是说，类似多巴胺的奖励讯号不只依赖调整权重，还能传递抽象技能和规则的重要讯息，来快速适应新任务。

神经科学家过去就已经观察到，前额叶皮质的神经活动能够让人类快速适应新任务，但是还没找到充分的原因解释，而DeepMind的实验发现前额叶皮质不是依赖调整神经突触的权重来学习规则的架构，而是用了多巴胺来转译抽象的规则讯息。

2018-05-16 12:32:00