一、学习主题
本周主要学习了强化学习中的基础概念,包括探索与利用、多臂老虎机、马尔可夫决策过程、Bellman 方程,以及值迭代和策略迭代等内容。
这些内容是强化学习理论体系中的基础部分,也是后续学习深度强化学习算法和智能控制方法的重要前提。通过本周学习,我对智能体如何在环境中进行决策、如何根据奖励不断改进策略,以及如何通过数学方法描述和求解强化学习问题有了初步理解。

二、强化学习基本概念
强化学习是一类通过智能体与环境不断交互来学习最优决策策略的方法。与监督学习不同,强化学习并不是直接从带标签的数据中学习,而是通过试错的方式,根据环境反馈的奖励来调整行为。
在强化学习中,主要包含以下几个基本要素:
- 智能体(Agent):进行决策和执行动作的主体;
- 环境(Environment):智能体所处的外部系统;
- 状态(State):环境在某一时刻的描述;
- 动作(Action):智能体在某个状态下可以采取的行为;
- 奖励(Reward):环境对智能体动作的反馈;
- 策略(Policy):智能体根据状态选择动作的规则;
- 价值函数(Value Function):用于衡量某个状态或动作的长期收益。
强化学习的目标是学习一个最优策略,使智能体在长期交互过程中获得最大的累计奖励。
三、探索与利用
1. 基本概念
在强化学习中,智能体需要在探索和利用之间进行权衡。
- 探索(Exploration):尝试之前较少选择或未知的动作,以获得更多关于环境的信息。
- 利用(Exploitation):根据已有经验选择当前认为最优的动作,以获得较高的即时奖励。
探索与利用是强化学习中的核心矛盾。如果智能体只进行利用,可能会陷入局部最优,无法发现更好的动作;如果智能体只进行探索,则可能长期无法获得较高的奖励。因此,强化学习算法需要在二者之间取得平衡。
2. ε-greedy 策略
ε-greedy 是一种常见的探索策略。其基本思想是:
- 以概率 ε\varepsilonε 随机选择一个动作;
- 以概率 1−ε1-\varepsilon1−ε 选择当前估计价值最高的动作。
其动作选择方式可以表示为:
At={随机动作,概率为 εargmaxaQt(a),概率为 1−ε A_t = \begin{cases} \text{随机动作}, & \text{概率为 } \varepsilon \\ \arg\max_a Q_t(a), & \text{概率为 } 1-\varepsilon \end{cases} At={随机动作,argmaxaQt(a),概率为 ε概率为 1−ε
其中,Qt(a)Q_t(a)Qt(a) 表示在第 ttt 次决策时对动作 aaa 的价值估计。
3. 学习体会
通过学习探索与利用,我认识到强化学习并不是简单地选择当前最优动作,而是需要在获取新信息和利用已有信息之间进行平衡。这一思想在多臂老虎机、Q-learning、DQN 等算法中都有重要体现。
四、多臂老虎机
1. 问题描述
多臂老虎机问题是强化学习中最经典、最基础的问题之一。假设有一台老虎机,它有多个拉杆,每个拉杆对应一个未知的奖励分布。智能体每次选择一个拉杆,并获得相应奖励,目标是在有限次数内最大化累计奖励。
多臂老虎机问题虽然形式简单,但很好地体现了强化学习中的探索与利用问题。

2. 动作价值函数
假设共有 KKK 个动作,每个动作都有一个真实的期望奖励。动作 aaa 的真实价值定义为:
q∗(a)=E[Rt∣At=a] q_*(a) = \mathbb{E}[R_t \mid A_t = a] q∗(a)=E[Rt∣At=a]
其中:
- AtA_tAt 表示第 ttt 次选择的动作;
- RtR_tRt 表示第 ttt 次获得的奖励;
- q∗(a)q_*(a)q∗(a) 表示动作 aaa 的真实价值。
由于真实价值 q∗(a)q_*(a)q∗(a) 通常是未知的,因此智能体需要通过不断尝试来估计每个动作的价值。
3. 样本平均法
动作价值可以通过样本平均法进行估计:
Qt(a)=动作 a 获得的奖励总和动作 a 被选择的次数 Q_t(a) = \frac{ \text{动作 } a \text{ 获得的奖励总和} }{ \text{动作 } a \text{ 被选择的次数} } Qt(a)=动作 a 被选择的次数动作 a 获得的奖励总和
其中,Qt(a)Q_t(a)Qt(a) 表示在第 ttt 次决策时对动作 aaa 的价值估计。
4. 增量更新公式
为了避免每次都重新计算平均值,可以使用增量更新公式:
Qn+1=Qn+1n(Rn−Qn) Q_{n+1} = Q_n + \frac{1}{n}(R_n - Q_n) Qn+1=Qn+n1(Rn−Qn)
其中:
- QnQ_nQn 表示第 nnn 次更新前的价值估计;
- RnR_nRn 表示第 nnn 次获得的奖励;
- Rn−QnR_n - Q_nRn−Qn 表示当前奖励与已有估计之间的误差。
该公式说明,新的估计值是在旧估计值的基础上,根据新的奖励反馈进行修正。
5. 学习体会
多臂老虎机问题不涉及状态转移,可以看作是强化学习问题的简化版本。通过学习该问题,我更加直观地理解了探索与利用之间的矛盾,以及动作价值估计在强化学习中的作用。
五、马尔可夫决策过程
1. MDP 的基本定义
马尔可夫决策过程(Markov Decision Process, MDP)是强化学习问题的数学建模框架。一个 MDP 通常可以表示为五元组:
(S,A,P,R,γ) (S, A, P, R, \gamma) (S,A,P,R,γ)
其中:
- SSS 表示状态空间;
- AAA 表示动作空间;
- PPP 表示状态转移概率;
- RRR 表示奖励函数;
- γ\gammaγ 表示折扣因子。
MDP 为强化学习问题提供了统一的数学描述方式,使得智能体与环境的交互过程可以被形式化分析。
2. 马尔可夫性质
MDP 的核心假设是马尔可夫性质。马尔可夫性质指的是:未来状态只与当前状态和当前动作有关,而与过去的历史无关。
其数学表达式为:
P(St+1∣St,At,St−1,At−1,… )=P(St+1∣St,At) P(S_{t+1} \mid S_t, A_t, S_{t-1}, A_{t-1}, \dots)=P(S_{t+1} \mid S_t, A_t) P(St+1∣St,At,St−1,At−1,…)=P(St+1∣St,At)
这说明当前状态 StS_tSt 已经包含了进行决策所需的全部信息。

3. 策略
策略表示智能体在某个状态下选择动作的规则,通常记为:
π(a∣s) \pi(a \mid s) π(a∣s)
其中,π(a∣s)\pi(a \mid s)π(a∣s) 表示智能体在状态 sss 下选择动作 aaa 的概率。
策略可以分为两类:
- 确定性策略:在每个状态下选择一个固定动作;
- 随机性策略:在每个状态下按照一定概率分布选择动作。
4. 回报
强化学习关注的不只是当前奖励,而是长期累计奖励。回报定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+⋯ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots Gt=Rt+1+γRt+2+γ2Rt+3+⋯
也可以写成:
Gt=∑k=0∞γkRt+k+1 G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=k=0∑∞γkRt+k+1
其中,γ\gammaγ 是折扣因子,取值范围通常为:
0≤γ≤1 0 \leq \gamma \leq 1 0≤γ≤1
当 γ\gammaγ 越接近 0 时,智能体越关注即时奖励;当 γ\gammaγ 越接近 1 时,智能体越关注长期奖励。
5. 学习体会
通过学习 MDP,我理解了强化学习问题如何被建模为状态、动作、奖励和状态转移的组合。MDP 是强化学习理论的基础,后续的 Bellman 方程、值迭代、策略迭代等方法都建立在 MDP 框架之上。
六、Bellman 方程
1. 状态价值函数
状态价值函数用于描述在某个状态下,按照策略 π\piπ 行动时能够获得的期望回报。
其定义为:
Vπ(s)=Eπ[Gt∣St=s] V^\pi(s) = \mathbb{E}_\pi[G_t \mid S_t = s] Vπ(s)=Eπ[Gt∣St=s]
其中,Vπ(s)V^\pi(s)Vπ(s) 表示在状态 sss 下遵循策略 π\piπ 所能获得的期望累计奖励。

2. Bellman 期望方程
根据回报的递归结构,可以得到 Bellman 期望方程:
Vπ(s)=∑aπ(a∣s)∑s′P(s′∣s,a)[R(s,a,s′)+γVπ(s′)] V^\pi(s) =\sum_a \pi(a \mid s) \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right] Vπ(s)=a∑π(a∣s)s′∑P(s′∣s,a)[R(s,a,s′)+γVπ(s′)]
该公式说明,一个状态的价值由两部分组成:
- 当前动作带来的即时奖励;
- 下一状态的折扣价值。
3. 动作价值函数
动作价值函数表示在状态 sss 下执行动作 aaa,之后按照策略 π\piπ 行动时能够获得的期望回报:
Qπ(s,a)=Eπ[Gt∣St=s,At=a] Q^\pi(s,a) =\mathbb{E}_\pi[G_t \mid S_t = s, A_t = a] Qπ(s,a)=Eπ[Gt∣St=s,At=a]
其 Bellman 期望方程为:
Qπ(s,a)=∑s′P(s′∣s,a)[R(s,a,s′)+γ∑a′π(a′∣s′)Qπ(s′,a′)] Q^\pi(s,a)= \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma \sum_{a'} \pi(a' \mid s') Q^\pi(s',a') \right] Qπ(s,a)=s′∑P(s′∣s,a)[R(s,a,s′)+γa′∑π(a′∣s′)Qπ(s′,a′)]
4. Bellman 最优方程
最优状态价值函数表示在状态 sss 下能够获得的最大期望回报,记为 V∗(s)V^*(s)V∗(s):
V∗(s)=maxa∑s′P(s′∣s,a)[R(s,a,s′)+γV∗(s′)] V^*(s)= \max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^*(s') \right] V∗(s)=amaxs′∑P(s′∣s,a)[R(s,a,s′)+γV∗(s′)]
最优动作价值函数记为 Q∗(s,a)Q^*(s,a)Q∗(s,a):
Q∗(s,a)=∑s′P(s′∣s,a)[R(s,a,s′)+γmaxa′Q∗(s′,a′)] Q^*(s,a)= \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma \max_{a'} Q^*(s',a') \right] Q∗(s,a)=s′∑P(s′∣s,a)[R(s,a,s′)+γa′maxQ∗(s′,a′)]
Bellman 最优方程是求解最优策略的重要理论基础。
5. 学习体会
Bellman 方程体现了强化学习中的递归思想。当前状态的价值可以由即时奖励和下一状态的价值共同决定。通过 Bellman 方程,可以将复杂的长期决策问题分解为一系列局部递推问题。
七、值迭代与策略迭代
1. 值迭代
值迭代是一种基于 Bellman 最优方程的动态规划方法。其核心思想是直接对状态价值函数进行迭代更新,使其逐渐逼近最优价值函数。
值迭代的更新公式为:
Vk+1(s)=maxa∑s′P(s′∣s,a)[R(s,a,s′)+γVk(s′)] V_{k+1}(s)= \max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V_k(s') \right] Vk+1(s)=amaxs′∑P(s′∣s,a)[R(s,a,s′)+γVk(s′)]
其中:
- Vk(s)V_k(s)Vk(s) 表示第 kkk 次迭代时状态 sss 的价值估计;
- Vk+1(s)V_{k+1}(s)Vk+1(s) 表示更新后的状态价值;
- γ\gammaγ 表示折扣因子。
当价值函数收敛后,可以根据最优价值函数得到最优策略:
π∗(s)=argmaxa∑s′P(s′∣s,a)[R(s,a,s′)+γV∗(s′)] \pi^*(s)= \arg\max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^*(s') \right] π∗(s)=argamaxs′∑P(s′∣s,a)[R(s,a,s′)+γV∗(s′)]
2. 值迭代特点
值迭代的特点包括:
- 直接逼近最优价值函数;
- 每次迭代都使用 Bellman 最优方程;
- 实现相对简单;
- 适用于状态空间较小且环境模型已知的问题。
3. 策略迭代
策略迭代也是一种经典的动态规划方法。它通过不断进行策略评估和策略改进来寻找最优策略。
策略迭代主要包括两个步骤:
(1)策略评估
在给定策略 π\piπ 的情况下,计算该策略对应的状态价值函数:
Vπ(s)=∑aπ(a∣s)∑s′P(s′∣s,a)[R(s,a,s′)+γVπ(s′)] V^\pi(s)= \sum_a \pi(a \mid s) \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right] Vπ(s)=a∑π(a∣s)s′∑P(s′∣s,a)[R(s,a,s′)+γVπ(s′)]
策略评估的目标是判断当前策略在每个状态下的长期收益。
(2)策略改进
根据当前价值函数对策略进行改进:
π′(s)=argmaxa∑s′P(s′∣s,a)[R(s,a,s′)+γVπ(s′)] \pi'(s)= \arg\max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right] π′(s)=argamaxs′∑P(s′∣s,a)[R(s,a,s′)+γVπ(s′)]
如果改进后的策略与原策略相同,则说明策略已经收敛,可以认为找到了最优策略。
4. 值迭代与策略迭代对比
| 方法 | 核心思想 | 优点 | 缺点 |
|---|---|---|---|
| 值迭代 | 直接迭代更新最优价值函数 | 实现简单,过程直接 | 每一步得到的策略不一定稳定 |
| 策略迭代 | 交替进行策略评估和策略改进 | 逻辑清晰,通常收敛较快 | 策略评估计算量较大 |
| 共同点 | 都基于 Bellman 方程 | 都可以求解最优策略 | 都要求环境模型已知 |
5. 学习体会
值迭代和策略迭代都是强化学习中基于动态规划思想的经典方法。它们的前提是环境模型已知,即状态转移概率和奖励函数是已知的。然而在实际问题中,环境模型往往难以获得,因此后续需要进一步学习基于采样的方法,如蒙特卡洛方法、时序差分学习和 Q-learning。
八、学习总结
可以总结如下:
- 探索与利用 是强化学习过程中必须解决的核心问题;
- 多臂老虎机 是研究探索与利用问题的经典简化模型;
- MDP 为强化学习问题提供了数学建模框架;
- Bellman 方程 描述了价值函数的递归关系;
- 值迭代和策略迭代 是基于 Bellman 方程求解最优策略的经典动态规划方法。
这些内容为后续学习深度强化学习算法打下了理论基础。尤其是 Bellman 方程和值函数的思想,在 Q-learning、DQN、Actor-Critic 等算法中都会反复出现。
强化学习并不是简单地追求当前时刻的最大收益,而是通过不断与环境交互,学习能够带来最大长期累计回报的策略。相比监督学习,强化学习更加关注序列决策问题,也更加适合用于控制、机器人、路径规划、游戏智能体等任务。
通过学习 MDP 和 Bellman 方程,我认识到强化学习问题可以被形式化建模和递归求解;通过学习值迭代和策略迭代,我初步理解了动态规划在强化学习中的应用方式。
虽然对强化学习基础概念有了初步理解,但仍然存在一些需要继续加强的地方:
- 对 Bellman 方程的推导过程还不够熟练;
- 对状态价值函数和动作价值函数之间的区别还需要进一步巩固;
- 对值迭代和策略迭代的具体实现过程理解还不够深入;
- 对强化学习算法在控制任务中的实际应用还缺乏实验经验。
后续需要结合代码实验和具体案例,进一步加深理解。
169

被折叠的 条评论
为什么被折叠?



