深度强化学习与控制中的强化学习部分

原创已于 2026-05-17 22:01:33 修改 · 379 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#学习

于 2026-05-17 22:01:07 首次发布

一、学习主题

本周主要学习了强化学习中的基础概念，包括探索与利用、多臂老虎机、马尔可夫决策过程、Bellman 方程，以及值迭代和策略迭代等内容。

这些内容是强化学习理论体系中的基础部分，也是后续学习深度强化学习算法和智能控制方法的重要前提。通过本周学习，我对智能体如何在环境中进行决策、如何根据奖励不断改进策略，以及如何通过数学方法描述和求解强化学习问题有了初步理解。
在这里插入图片描述

二、强化学习基本概念

强化学习是一类通过智能体与环境不断交互来学习最优决策策略的方法。与监督学习不同，强化学习并不是直接从带标签的数据中学习，而是通过试错的方式，根据环境反馈的奖励来调整行为。

在强化学习中，主要包含以下几个基本要素：

智能体（Agent）：进行决策和执行动作的主体；
环境（Environment）：智能体所处的外部系统；
状态（State）：环境在某一时刻的描述；
动作（Action）：智能体在某个状态下可以采取的行为；
奖励（Reward）：环境对智能体动作的反馈；
策略（Policy）：智能体根据状态选择动作的规则；
价值函数（Value Function）：用于衡量某个状态或动作的长期收益。

强化学习的目标是学习一个最优策略，使智能体在长期交互过程中获得最大的累计奖励。

三、探索与利用

1. 基本概念

在强化学习中，智能体需要在探索和利用之间进行权衡。

探索（Exploration）：尝试之前较少选择或未知的动作，以获得更多关于环境的信息。
利用（Exploitation）：根据已有经验选择当前认为最优的动作，以获得较高的即时奖励。

探索与利用是强化学习中的核心矛盾。如果智能体只进行利用，可能会陷入局部最优，无法发现更好的动作；如果智能体只进行探索，则可能长期无法获得较高的奖励。因此，强化学习算法需要在二者之间取得平衡。

2. ε-greedy 策略

ε-greedy 是一种常见的探索策略。其基本思想是：

以概率 $ε\varepsilon$ 随机选择一个动作；
以概率 $1−ε1-\varepsilon$ 选择当前估计价值最高的动作。

其动作选择方式可以表示为：

$A_t = \begin{cases} \text{随机动作}, & \text{概率为 } \varepsilon \\ \arg\max_a Q_t(a), & \text{概率为 } 1-\varepsilon \end{cases}$

其中， $Q_t(a)$ 表示在第 $t$ 次决策时对动作 $a$ 的价值估计。

3. 学习体会

通过学习探索与利用，我认识到强化学习并不是简单地选择当前最优动作，而是需要在获取新信息和利用已有信息之间进行平衡。这一思想在多臂老虎机、Q-learning、DQN 等算法中都有重要体现。

四、多臂老虎机

1. 问题描述

多臂老虎机问题是强化学习中最经典、最基础的问题之一。假设有一台老虎机，它有多个拉杆，每个拉杆对应一个未知的奖励分布。智能体每次选择一个拉杆，并获得相应奖励，目标是在有限次数内最大化累计奖励。

多臂老虎机问题虽然形式简单，但很好地体现了强化学习中的探索与利用问题。
在这里插入图片描述

2. 动作价值函数

假设共有 $K$ 个动作，每个动作都有一个真实的期望奖励。动作 $a$ 的真实价值定义为：

$q_*(a) = \mathbb{E}[R_t \mid A_t = a]$

其中：

$A_t$ 表示第 $t$ 次选择的动作；
$R_t$ 表示第 $t$ 次获得的奖励；
$q_*(a)$ 表示动作 $a$ 的真实价值。

由于真实价值 $q_*(a)$ 通常是未知的，因此智能体需要通过不断尝试来估计每个动作的价值。

3. 样本平均法

动作价值可以通过样本平均法进行估计：

$Q_t(a) = \frac{ \text{动作 } a \text{ 获得的奖励总和} }{ \text{动作 } a \text{ 被选择的次数} }$

其中， $Q_t(a)$ 表示在第 $t$ 次决策时对动作 $a$ 的价值估计。

4. 增量更新公式

为了避免每次都重新计算平均值，可以使用增量更新公式：

$Q_{n+1} = Q_n + \frac{1}{n}(R_n - Q_n)$

其中：

$Q_n$ 表示第 $n$ 次更新前的价值估计；
$R_n$ 表示第 $n$ 次获得的奖励；
$R_n - Q_n$ 表示当前奖励与已有估计之间的误差。

该公式说明，新的估计值是在旧估计值的基础上，根据新的奖励反馈进行修正。

5. 学习体会

多臂老虎机问题不涉及状态转移，可以看作是强化学习问题的简化版本。通过学习该问题，我更加直观地理解了探索与利用之间的矛盾，以及动作价值估计在强化学习中的作用。

五、马尔可夫决策过程

1. MDP 的基本定义

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习问题的数学建模框架。一个 MDP 通常可以表示为五元组：

$\gamma)$

其中：

$S$ 表示状态空间；
$A$ 表示动作空间；
$P$ 表示状态转移概率；
$R$ 表示奖励函数；
$γ\gamma$ 表示折扣因子。

MDP 为强化学习问题提供了统一的数学描述方式，使得智能体与环境的交互过程可以被形式化分析。

2. 马尔可夫性质

MDP 的核心假设是马尔可夫性质。马尔可夫性质指的是：未来状态只与当前状态和当前动作有关，而与过去的历史无关。

其数学表达式为：

$P(S_{t+1} \mid S_t, A_t, S_{t-1}, A_{t-1}, \dots)=P(S_{t+1} \mid S_t, A_t)$

这说明当前状态 $S_t$ 已经包含了进行决策所需的全部信息。
在这里插入图片描述

3. 策略

策略表示智能体在某个状态下选择动作的规则，通常记为：

$\pi(a \mid s)$

其中， $π(a∣s)\pi(a \mid s)$ 表示智能体在状态 $s$ 下选择动作 $a$ 的概率。

策略可以分为两类：

确定性策略：在每个状态下选择一个固定动作；
随机性策略：在每个状态下按照一定概率分布选择动作。

4. 回报

强化学习关注的不只是当前奖励，而是长期累计奖励。回报定义为：

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots$

也可以写成：

$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

其中， $γ\gamma$ 是折扣因子，取值范围通常为：

$\leq \gamma \leq 1$

当 $γ\gamma$ 越接近 0 时，智能体越关注即时奖励；当 $γ\gamma$ 越接近 1 时，智能体越关注长期奖励。

5. 学习体会

通过学习 MDP，我理解了强化学习问题如何被建模为状态、动作、奖励和状态转移的组合。MDP 是强化学习理论的基础，后续的 Bellman 方程、值迭代、策略迭代等方法都建立在 MDP 框架之上。

六、Bellman 方程

1. 状态价值函数

状态价值函数用于描述在某个状态下，按照策略 $π\pi$ 行动时能够获得的期望回报。

其定义为：

$V^\pi(s) = \mathbb{E}_\pi[G_t \mid S_t = s]$

其中， $Vπ(s)V^\pi(s)$ 表示在状态 $s$ 下遵循策略 $π\pi$ 所能获得的期望累计奖励。
在这里插入图片描述

2. Bellman 期望方程

根据回报的递归结构，可以得到 Bellman 期望方程：

$V^\pi(s) =\sum_a \pi(a \mid s) \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right]$

该公式说明，一个状态的价值由两部分组成：

当前动作带来的即时奖励；
下一状态的折扣价值。

3. 动作价值函数

动作价值函数表示在状态 $s$ 下执行动作 $a$ ，之后按照策略 $π\pi$ 行动时能够获得的期望回报：

$Q^\pi(s,a) =\mathbb{E}_\pi[G_t \mid S_t = s, A_t = a]$

其 Bellman 期望方程为：

$Q^\pi(s,a)= \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma \sum_{a'} \pi(a' \mid s') Q^\pi(s',a') \right]$

4. Bellman 最优方程

最优状态价值函数表示在状态 $s$ 下能够获得的最大期望回报，记为 $V^*(s)$ ：

$V^*(s)= \max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^*(s') \right]$

最优动作价值函数记为 $Q^*(s,a)$ ：

$Q^*(s,a)= \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma \max_{a'} Q^*(s',a') \right]$

Bellman 最优方程是求解最优策略的重要理论基础。

5. 学习体会

Bellman 方程体现了强化学习中的递归思想。当前状态的价值可以由即时奖励和下一状态的价值共同决定。通过 Bellman 方程，可以将复杂的长期决策问题分解为一系列局部递推问题。

七、值迭代与策略迭代

1. 值迭代

值迭代是一种基于 Bellman 最优方程的动态规划方法。其核心思想是直接对状态价值函数进行迭代更新，使其逐渐逼近最优价值函数。

值迭代的更新公式为：

$V_{k+1}(s)= \max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V_k(s') \right]$

其中：

$V_k(s)$ 表示第 $k$ 次迭代时状态 $s$ 的价值估计；
$V_{k+1}(s)$ 表示更新后的状态价值；
$γ\gamma$ 表示折扣因子。

当价值函数收敛后，可以根据最优价值函数得到最优策略：

$\pi^*(s)= \arg\max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^*(s') \right]$

2. 值迭代特点

值迭代的特点包括：

直接逼近最优价值函数；
每次迭代都使用 Bellman 最优方程；
实现相对简单；
适用于状态空间较小且环境模型已知的问题。

3. 策略迭代

策略迭代也是一种经典的动态规划方法。它通过不断进行策略评估和策略改进来寻找最优策略。

策略迭代主要包括两个步骤：

（1）策略评估

在给定策略 $π\pi$ 的情况下，计算该策略对应的状态价值函数：

$V^\pi(s)= \sum_a \pi(a \mid s) \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right]$

策略评估的目标是判断当前策略在每个状态下的长期收益。

（2）策略改进

根据当前价值函数对策略进行改进：

$\pi'(s)= \arg\max_a \sum_{s'} P(s' \mid s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right]$

如果改进后的策略与原策略相同，则说明策略已经收敛，可以认为找到了最优策略。

4. 值迭代与策略迭代对比

方法	核心思想	优点	缺点
值迭代	直接迭代更新最优价值函数	实现简单，过程直接	每一步得到的策略不一定稳定
策略迭代	交替进行策略评估和策略改进	逻辑清晰，通常收敛较快	策略评估计算量较大
共同点	都基于 Bellman 方程	都可以求解最优策略	都要求环境模型已知