这里是强化学习入门的入门

消息来源:baojiabao.com 作者: 发布时间：2026-05-16

报价宝综合消息这里是强化学习入门的入门

原作：Thomas Simonini

墙化栗子编译自 FreeCodeCamp

量子位出品 | 公众号 QbitAI

强化学习是机器学习里面非常重要的一个派别。智能体 (agent) 会不断执行一些操作，通过结果来学习，在不同的环境中分别应该采取怎样的行动。

在一系列教学文章里，我们可以了解不同的架构，来解决强化学习的问题。Q学习，深度Q网络 (DQN) ，策略梯度 (Policy Gradients) ，演员-评论家 (Actor-Critic) ，以及近端策略优化 (PPO) 都是将要涉及的算法。

这是本系列的第一篇文章，你可以抓住的重点有：

·什么是强化学习，以及为什么奖励最重要

·强化学习的三种方式

·深度强化学习的“深度”是什么意思

以上几点，在进入强化学习的复杂世界之前，可能还是有必要了解一下。

这是个友好的引子

强化学习的中心思想，就是让智能体在环境里学习。每个行动会对应各自的奖励，智能体通过分析数据来学习，怎样的情况下应该做怎样的事情。

其实，这样的学习过程和我们自然的经历非常相似。想像自己是个小孩子，第一次看到了火，然后走到了火边。

你感受到了温暖。火是个好东西 (+1) 。

然后就试着去摸。卧槽，这么烫 (-1) 。

结论是，在稍远的地方火是好的，靠得太近就不好。

这就是人类学习的方式，与环境交互。强化学习也是一样的道理，只是主角换成了计算机。

比如，智能体要学着玩超级马里奥。强化学习过程可以用一个循环 (loop) 来表示：

·智能体在环境 (超级马里奥) 里获得初始状态S0(游戏的第一帧) ；

·在state 0的基础上，agent会做出第一个行动A0(如向右走) ；

·环境变化，获得新的状态S1(A0发生后的某一帧) ；

·环境给出了第一个奖励R1(没死：+1) ；

于是，这个loop输出的就是一个由状态、奖励和行动组成的序列。

而智能体的目标就是让预期累积奖励最大化。

奖励假说为根基

问题来了，目标为什么是预期累积奖励最大化？

因为，强化学习原本就是建立在奖励假说的基础之上。想表现好，就要多拿奖励。

每一个时间步(time step) 的累积奖励都可以表示为：

或者

不过，我们没有办法把奖励直接相加。因为游戏里，越接近游戏开始处的奖励，就越容易获得；而随着游戏的进行，后面的奖励就没有那么容易拿到了。

把智能体想成一只小老鼠，对手是只猫。它的目标就是在被猫吃掉之前，吃到最多的乳酪。

就像图中，离老鼠最近的乳酪很容易吃，而从猫眼皮底下顺乳酪就难了。离猫越近，就越危险。

结果就是，从猫身旁获取的奖励会打折扣，吃到的可能性小，就算乳酪放得很密集也没用。

那么，这个折扣要怎么算呢？

我们用γ表示折扣率，在0和1之间。

·γ越大，折扣越小。表示智能体越在意长期的奖励 (猫边上的乳酪) 。

·γ越小，折扣越大。表示智能体越在意短期的奖励 (鼠边上的乳酪) 。

这样，累积奖励表示出来就是：

简单来说，离猫近一步，就乘上一个γ，表示奖励越难获得。

片段性任务还是连续性任务

强化学习里的任务分两种。

片段性任务 (Episodic Tasks)

这类任务，有个起点，有个终点。两者之间有一堆状态，一堆行动，一堆奖励，和一堆新的状态，它们共同构成了一“集”。

当一集结束，也就是到达终止状态的时候，智能体会看一下奖励累积了多少，以此评估自己的表现。

然后，它就带着之前的经验开始一局新游戏。这一次，智能体做决定的依据会充分一些。

以猫鼠迷宫为例的一集：

·永远从同一个起点开始

·如果被猫吃掉或者走了超过20步，则游戏结束

·结束时，得到一系列状态、行动、奖励和新状态

·算出奖励的总和 (看看表现如何)

·更有经验地开始新游戏

集数越多，智能体的表现会越好。

连续性任务 (Continuing Tasks)

永远不会有游戏结束的时候。智能体要学习如何选择最佳的行动，和环境进行实时交互。就像自动驾驶汽车，并没有过关拔旗子的事。

这样的任务是通过时间差分学习(Temporal Difference Learning) 来训练的。每一个时间步，都会有总结学习，等不到一集结束再分析结果。

探索和开发之间的权衡

在讨论强化学习的几种方法之前，必须讲到这件事。

·探索(Exploration) 是找到关于环境的更多信息。

·开发(Exploitation) 是利用已知信息来得到最多的奖励。

要记住，目标是将预期累积奖励最大化。正因如此，它有时候会陷入一种困境。

小老鼠可以吃到无穷多块分散的乳酪 (每块+1) 。但在迷宫上方，有许多堆在起的乳酪(+1000) ，或者看成巨型乳酪。

如果我们只关心吃了多少，小老鼠就永远不会去找那些大乳酪。它只会在安全的地方一块一块地吃，这样奖励累积比较慢，但它不在乎。

如果它跑去远的地方，也许就会发现大奖的存在，但也有可能发生危险。

程序猿需要设定一种规则，让智能体能够把握二者之间的平衡。

强化学习的三种方法

前菜吃完了，我们终于要开始讲解决强化学习问题的方法了。三种方法分别是：基于价值（value-based）、基于策略（policy-based）以及基于模型（model-based）的方法。

基于价值 (Value-Based)

这种方法，目标是优化价值函数V(s)。

价值函数会告诉我们，智能体在每个状态里得出的未来奖励最大预期 (maximum expected future reward) 。

一个状态下的函数值，是智能体可以预期的未来奖励积累总值，从当前状态开始算。

智能体要用这个价值函数来决定，每一步要选择哪个行动。它会采取函数值 (就是Q值) 最大的那个行动。

在迷宫问题中，每一步我们都选取最大函数值：-7，-6，-5，以此类推，达到目标。

基于策略 (Policy-Based)

这种方式，会直接优化策略函数π(s)，抛弃价值函数。

策略就是评判智能体在特定时间点的表现。

把每一个状态和它所对应的最佳行动建立联系。

策略分为两种，

·确定性策略：某一个特定状态下的策略，永远都会给出同样的行动。

·随机性策略：策略给出的是多种行动的可能性分布。

从图中我们可以看到，策略直接指出了每一步的最佳行动。

基于模型 (Model-Based)

这种方法是对环境建模。这表示，我们要创建一个模型，来表示环境的行为。

问题是，每个环境都会需要一个不同的模型 (马里奥每走一步，都会有一个新环境) 。这也是这个方法在强化学习中并不太常用的原因。

深度强化学习

所谓深度强化学习，就是在强化学习里，加入深度神经网络。

如图，拿Q学习和深度Q网络 (DQN) 来举例。

·Q学习，是利用一个传统算法创建Q-table，来帮助智能体找到下一步要采取的行动。

·DQN，是利用深度神经网络来近似Q值。

恭喜你读到现在。这第一篇文章的信息量还是不小的。

根本停不下来

有兴趣的同学，可以坚持服用一疗程。

这里是本系列大纲的传送门：

https://simoninithomas.github.io/Deep_reinforcement_learning_Course/

—完—

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

2018-04-05 19:31:00

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格报价宝数码相机价格手机价格耳机价格降噪耳机价格

B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了？技术团队公开早先原因
2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强？答案揭晓
2023-02-19 15:09:54
华为荣耀两款机型起内讧：荣耀Play官方价格同价同配该如何选？
2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格：刘海屏设计顶配版曾卖6900元
2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假浮夸不能只罚酒三杯
2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格，屏幕和电池参数配置对比
2023-02-17 18:42:49
小米MAX4手机上市日期首发价格骁龙720打造大屏标准
2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾光刻机抵押换钱
2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠
2023-02-16 13:34:45
巴斯夫将裁员6000人众化工巨头裁员潮再度引发关注
2023-02-13 16:49:06
人手不足韵达快递客服回应大量包裹派送异常没有收到
2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢？微念公司退出子柒文化股东
2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办
2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱？1.2万元售价外观图片吊打iPhone14
2023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别？
2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了
2022-11-19 11:53:50
热血江湖手游：长枪铁甲刚猛热血正派枪客全攻略技能介绍大全
2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?
2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次
2022-10-03 22:13:45
苹果美版iPhone可以在中国保修从哪看怎么查询iPhone的生产日期？
2022-09-22 10:00:07

这里是强化学习入门 的入门