【强化学习解惑】强化学习的基本概念和工作原理是什么？

最新推荐文章于 2026-04-03 09:39:03 发布

原创最新推荐文章于 2026-04-03 09:39:03 发布 · 870 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#深度学习 #人工智能 #大模型 #神经网络 #强化学习

哈佛博后带你玩转机器学习同时被 3 个专栏收录

1476 篇文章

订阅专栏

大模型技术开发与实践

1471 篇文章

订阅专栏

深度学习

1397 篇文章

订阅专栏

强化学习核心概念与原理详解

引言与背景介绍
原理解释
代码说明与实现 (PyTorch示例)
应用场景与案例分析
实验设计与结果分析
性能分析与技术对比
常见问题与解决方案
创新性与差异性说明
局限性与挑战
未来建议和进一步研究
扩展阅读与资源推荐
图示与交互性内容（概念图）
语言风格说明
互动交流

1. 引言与背景介绍

想象你训练一只小狗：它做对动作（如坐下）时得到零食（奖励），做错时没有（惩罚）。小狗通过不断尝试，最终学会在特定指令下做出正确动作。强化学习（Reinforcement Learning, RL） 正是让机器（智能体, Agent）通过类似“试错”机制，在与环境（Environment）的持续交互中学习最优决策策略的机器学习范式。

核心目标： 学习一个策略（Policy），指导智能体在面对环境状态（State）时选择能获得长期累积奖励最大化的动作（Action）。
关键驱动力： 解决序列决策问题——当前决策影响未来所有可能的状态和奖励。RL广泛应用于游戏AI（AlphaGo）、机器人控制、自动驾驶、推荐系统、金融交易等领域。

2. 原理解释

RL的核心框架建立在马尔可夫决策过程（Markov Decision Process, MDP） 上，通常由五元组 $\gamma>$ 定义：

$S$ (States): 环境所有可能状态的集合。
$A$ (Actions): 智能体在给定状态下可执行的动作集合。
$P (s^{'} ∣ s, a)$ (Transition Probability): 在状态 $s$ 执行动作 $a$ 后，环境转移到状态 $s^{'}$ 的概率。
$R (s, a, s^{'})$ (Reward Function): 在状态 $s$ 执行动作 $a$ 后转移到状态 $s^{'}$ 获得的即时奖励。
$\gamma$ (Discount Factor): 折扣因子 ( $\leq \gamma \leq 1$ )，用于权衡当前奖励与未来奖励的重要性。 $\gamma$ 接近 0 表示更重视即时奖励；接近 1 表示更重视长远回报。

核心概念：

策略 ( $\pi$ ): 智能体的行为准则。 $\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率（随机策略）或直接指定动作（确定性策略）。
值函数 (Value Function): 评估状态或状态-动作对的好坏。
- 状态值函数 $V^\pi(s)$ : 表示从状态 $s$ 开始，遵循策略 $\pi$ 所能获得的期望累积折扣奖励：
  $V^\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s]$
- 动作值函数 (Q函数) $Q^\pi(s, a)$ : 表示在状态 $s$ 下执行动作 $a$ ，之后遵循策略 $\pi$ 所能获得的期望累积折扣奖励：
  $Q^\pi(s, a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]$
贝尔曼方程 (Bellman Equation): RL的核心递归关系，是动态规划和时序差分学习的基础。
- $V^\pi(s)$ 的贝尔曼方程：
  $V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s, a) [R(s, a, s') + \gamma V^\pi(s')]$
- $Q^\pi(s, a)$ 的贝尔曼方程：
  $Q^\pi(s, a) = \sum_{s'} P(s'|s, a) [R(s, a, s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a')]$
最优值函数：
- 最优状态值函数 $V^*(s)$ : 所有策略中能达到的最大值： $V^*(s) = \max_\pi V^\pi(s)$
- 最优动作值函数 $Q^*(s, a)$ : 所有策略中能达到的最大值： $Q^*(s, a) = \max_\pi Q^\pi(s, a)$
最优策略 ( $\pi^*$ ): 能达到最优值函数的策略。满足 $\pi^*(s) = \arg\max_a Q^*(s, a)$ 。
探索 (Exploration) vs. 利用 (Exploitation): 智能体必须在尝试新动作（探索，可能发现更好策略）和选择已知好动作（利用，获得稳定奖励）之间取得平衡。这是RL的关键挑战。

核心算法思想：

基于值 (Value-Based): 学习最优值函数（主要是 $Q^*$ ），然后通过 $\pi(s) = \arg\max_a Q(s, a)$ 导出策略（确定性）。代表算法：Q-Learning, DQN。
- Q-Learning (Off-Policy):
  $Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [R_{t+1} + \gamma \max_{a} Q(s_{t+1}, a) - Q(s_t, a_t)]$
  - $\alpha$ ：学习率。
  - $R_{t+1} + \gamma \max_{a} Q(s_{t+1}, a)$ ：目标值 (TD Target)。
  - $Q(s_t, a_t)$ ：当前估计值。
  - $max_{a} Q(s_{t+1}, a)$ ：在 $s_{t+1}$ 状态下选择具有最大Q值的动作（体现“最优”）。
基于策略 (Policy-Based): 直接参数化策略 $\pi_\theta(a|s)$ （如神经网络），通过优化策略参数 $\theta$ 来最大化期望累积奖励 $J(\theta)$ 。代表算法：REINFORCE, PPO。
- 策略梯度定理： 提供了计算目标函数 $J(\theta)$ 关于参数 $\theta$ 的梯度的方向：
  $\nabla_\theta J(\theta) \approx \mathbb{E}_{\pi_\theta} [\nabla_\theta \log \pi_\theta(a|s) Q^{\pi_\theta}(s, a)]$
- REINFORCE (Monte Carlo Policy Gradient): 使用整条轨迹的回报 $G_t$ 作为 $Q^{\pi_\theta}(s_t, a_t)$ 的估计：
  $\theta \leftarrow \theta + \alpha \gamma^t G_t \nabla_\theta \log \pi_\theta(a_t|s_t)$
演员-评论家 (Actor-Critic): 结合了值函数和策略函数的优点。
- 演员 (Actor): 参数化策略 $\pi_\theta(a|s)$ ，负责执行动作。
- 评论家 (Critic): 参数化值函数（ $V_w(s)$ 或 $Q_w(s, a)$ ），负责评估演员动作的好坏（提供梯度方向）。
- 演员根据评论家的“评价”更新策略，评论家根据环境反馈更新值函数评估。代表算法：A2C/A3C, DDPG, SAC, PPO。

图示辅助理解 (概念图):

        +----------------+       +----------------+       +----------------+
        |    环境状态 s   |-----> |   智能体策略 π   |-----> |      动作 a      |
        | (Environment) |       |    (Agent)     |       | (Environment) |
        +----------------+       +----------------+       +----------------+
              ^                                                |
              |                                                | 奖励 r
              |                                                | 新状态 s'
              |                                                v
              +------------------------------------------------+

3. 代码说明与实现 (PyTorch DQN 关键部分)

以下是一个简化版DQN（Deep Q-Network）的核心代码片段：

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from collections import deque, namedtuple

# 定义经验回放缓存
Transition = namedtuple('Transition', ('state', 'action', 'next_state', 'reward', 'done'))
class ReplayBuffer:
    def __init__(self, capacity):
        self.buffer = deque(maxlen=capacity)
    def push(self, *args):
        self.buffer.append(Transition(*args))
    def sample(self, batch_size):
        return random.sample(self.buffer, batch_size)
    def __len__(self):
        return len(self.buffer)

# 定义Q网络 (简单全连接网络)
class DQN(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=128):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, action_dim)
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

# DQN Agent 核心训练步骤
class DQNAgent:
    def __init__(self, state_dim, action_dim, lr=1e-3, gamma=0.99, batch_size=64, buffer_capacity=10000, target_update=100):
        self.action_dim = action_dim
        self.gamma = gamma
        self.batch_size = batch_size
        self.target_update = target_update  # 目标网络更新频率
        self.steps_done = 0

        # 创建策略网络和目标网络
        self.policy_net = DQN(state_dim, action_dim)
        self.target_net = DQN(state_dim, action_dim)
        self.target_net.load_state_dict(self.policy_net.state_dict())  # 初始化相同权重
        self.target_net.eval()  # 目标网络不计算梯度

        self.optimizer = optim.Adam(self.policy_net.parameters(), lr=lr)
        self.memory = ReplayBuffer(buffer_capacity)

    def select_action(self, state, epsilon):
        # ε-贪婪策略选择动作
        if np.random.rand() < epsilon:
            return np.random.randint(self.action_dim)  # 探索
        else:
            with torch.no_grad():
                state = torch.FloatTensor(state).unsqueeze(0)
                q_values = self.policy_net(state)
                return q_values.argmax().item()  # 利用

    def optimize_model(self):
        if len(self.memory) < self.batch_size:
            return
        # 1. 从经验池采样一个批次
        transitions = self.memory.sample(self.batch_size)
        batch = Transition(*zip(*transitions))

        # 2. 计算非终止状态的掩码
        non_final_mask = torch.tensor(tuple(map(lambda s: s is not None, batch.next_state)), dtype=torch.bool)
        non_final_next_states = torch.FloatTensor([s for s in batch.next_state if s is not None])

        # 3. 将批次数据转换为张量
        state_batch = torch.FloatTensor(batch.state)
        action_batch = torch.LongTensor(batch.action).unsqueeze(1)  # 保持维度以用于gather
        reward_batch = torch.FloatTensor(batch.reward)
        done_batch = torch.FloatTensor(batch.done)

        # 4. 计算当前状态的Q(s_t, a_t) - 策略网络计算
        state_action_values = self.policy_net(state_batch).gather(1, action_batch)

        # 5. 计算下一个状态的最大Q值 - 目标网络计算 (只计算非终止状态)
        next_state_values = torch.zeros(self.batch_size)
        next_state_values[non_final_mask] = self.target_net(non_final_next_states).max(1)[0].detach()

        # 6. 计算期望的Q值 (贝尔曼方程目标)
        expected_state_action_values = reward_batch + self.gamma * next_state_values * (1 - done_batch)

        # 7. 计算Huber损失 (比MSE对异常值更鲁棒)
        loss = nn.functional.smooth_l1_loss(state_action_values, expected_state_action_values.unsqueeze(1))

        # 8. 优化模型
        self.optimizer.zero_grad()
        loss.backward()
        # 可选：梯度裁剪防止爆炸
        torch.nn.utils.clip_grad_value_(self.policy_net.parameters(), 100)
        self.optimizer.step()

    def update_target_net(self):
        # 定期将策略网络的权重复制到目标网络
        self.target_net.load_state_dict(self.policy_net.state_dict())

    def step(self, state, action, next_state, reward, done):
        # 存储经验到回放池
        self.memory.push(state, action, next_state, reward, done)
        # 执行一次优化
        self.optimize_model()
        # 定期更新目标网络
        if self.steps_done % self.target_update == 0:
            self.update_target_net()
        self.steps_done += 1

关键模块说明与技巧：

经验回放 (Replay Buffer):
- 作用： 打破样本间的时序相关性，提高数据利用率，使训练更稳定。
- 技巧： 使用deque或更高效的循环缓冲区。采样时使用random.sample确保随机性。batch_size需根据问题调整。
目标网络 (Target Network):
- 作用： 提供稳定的学习目标，缓解Q-learning中目标值（max Q(s', a')）与当前网络参数强耦合导致的训练不稳定。
- 技巧： 使用与策略网络相同的结构。采用“软更新”策略（如 $\theta_{target} \leftarrow \tau \theta_{policy} + (1-\tau) \theta_{target}$ ）比固定间隔的硬更新通常更平滑。
ε-贪婪策略:
- 作用： 平衡探索与利用。
- 技巧： ε通常随时间衰减（如线性衰减或指数衰减），初期侧重探索，后期侧重利用。
损失函数 (Huber Loss / Smooth L1 Loss):
- 作用： 计算预测Q值与目标Q值的误差。Huber Loss在误差较大时增长缓慢，比均方误差（MSE）对异常值更鲁棒，有助于稳定训练。
梯度裁剪:
- 作用： 防止反向传播过程中梯度爆炸。
- 技巧： 使用torch.nn.utils.clip_grad_value_或clip_grad_norm_。

4. 应用场景与案例分析

游戏AI:
- 案例： DeepMind的DQN在Atari游戏中达到甚至超越人类水平；AlphaGo/AlphaZero击败人类顶尖棋手。
- 价值： RL能处理高维状态空间（像素输入），学习复杂策略，是测试AI智能水平的理想沙盒。
- 路径： 定义状态（游戏画面/内部状态）、动作（按键/落子位置）、奖励（得分/胜负）。训练智能体最大化游戏得分或获胜概率。
机器人控制:
- 案例： 让机器人学习行走、抓取物体；无人机自主导航。
- 价值： 在复杂、动态的物理环境中，RL可以学习到难以人工编程的鲁棒控制策略。
- 路径： 状态（关节角度、传感器数据），动作（电机扭矩），奖励（前进速度、任务完成度）。常需在仿真环境（如MuJoCo, PyBullet）预训练，再迁移到真实机器人（Sim2Real）。
推荐系统:
- 案例： 电商平台根据用户实时反馈（点击、购买、停留时长）动态调整推荐内容。
- 价值： 将推荐视为序列决策问题，优化用户的长期参与度（如总观看时长、转化率），而非单次点击率（CTR）。
- 路径： 状态（用户历史行为、画像、当前上下文），动作（推荐物品列表），奖励（用户即时反馈，如点击+1，购买+10）。
自动驾驶:
- 案例： 训练车辆在复杂交通环境中安全、高效行驶。
- 价值： 处理海量传感器数据（摄像头、激光雷达），应对不可预测的交通参与者（行人、其他车辆），学习安全的驾驶策略。
- 路径： 状态（传感器融合数据、高精地图信息），动作（方向盘转角、油门/刹车），奖励（安全到达目的地、舒适性、遵守交规）。严重依赖高保真仿真。
资源管理:
- 案例： 数据中心冷却系统能耗优化，网络流量调度。
- 价值： 在动态、不确定的环境下做出实时决策，优化长期成本或效率。
- 路径： 状态（资源使用率、负载、环境参数），动作（资源分配策略、调度决策），奖励（负的成本、正的服务质量指标）。

5. 实验设计与结果分析

环境： OpenAI Gym的CartPole-v1（经典控制问题，平衡倒立摆）。
智能体： 上述DQN Agent (简化版)。
超参数：
- 学习率 (lr): 0.001
- 折扣因子 (γ): 0.99
- 回放缓冲区大小 (buffer_capacity): 10000
- 批次大小 (batch_size): 64
- 目标网络更新频率 (target_update): 100 steps
- ε-贪婪：初始ε=1.0，线性衰减至0.01，衰减步数=10000
- 网络结构：输入层(4) -> FC(128) -> ReLU -> FC(128) -> ReLU -> 输出层(2)
评估指标：
- 训练曲线： 每个Episode的总奖励 (Return)。理想目标是稳定达到最高分（CartPole-v1是200）。
- 稳定性： 观察奖励曲线的波动程度。
- 样本效率： 达到某个性能水平（如平均奖励>195）所需的训练步数或Episode数。
预期结果：
- 图表： X轴：训练Episode数 / 环境交互步数；Y轴：每个Episode的总奖励（可加滑动平均曲线）。
- 分析： 初期奖励低且波动大（探索为主）；随着训练进行，奖励逐渐上升并趋于稳定（学习到有效策略）；最终应能稳定在接近200分的水平。目标网络和经验回放对曲线稳定性至关重要。超参数（特别是学习率、ε衰减）对收敛速度和最终性能影响显著。

6. 性能分析与技术对比

特性/算法	Q-Learning / DQN (Value-Based)	REINFORCE (Policy-Based)	A3C / PPO (Actor-Critic)
学习目标	最优Q函数 -> 导出策略	直接优化策略参数	优化策略(Actor)+评估值(Critic)
策略类型	确定性 (由Q值最大化决定)	随机	通常随机
输出	Q值表/函数	动作概率分布	动作概率分布 + 状态值估计
处理连续动作	困难 (需离散化)	容易	容易
方差	相对较低 (Bootstrapping)	高 (依赖Monte Carlo回报)	中-低 (Critic减小方差)
样本效率	中 (经验回放帮助)	低	中-高
收敛性	可能不稳定 (Off-Policy, Bootstrapping)	较慢但稳定 (On-Policy)	通常更稳定高效 (On-Policy + Tricks)
优势场景	离散动作空间，样本效率要求中等	连续动作空间，简单策略	连续动作，高维/复杂状态，稳定性要求高
代表算法	DQN, Double DQN, Rainbow	Vanilla PG	A2C, A3C, PPO, TRPO, SAC

DQN优缺点：

优点： 概念相对清晰，在离散动作问题上表现优异，经验回放和目标网络提高了稳定性和样本效率。
缺点： 难以处理连续动作空间；Q值过估计问题（Double DQN可缓解）；对超参数敏感；训练可能不稳定。

7. 常见问题与解决方案

训练不稳定/发散：
- 原因： Bootstrapping（自举）和目标网络更新耦合、Q值过估计、学习率过大、梯度爆炸。
- 解决： 使用目标网络+软更新；采用Double DQN；降低学习率；使用梯度裁剪 (Clip Gradients)；增大回放缓冲区；仔细调整超参数。
样本效率低：
- 原因： On-Policy算法需新数据、探索效率低、网络容量不足。
- 解决： 优先采用Off-Policy算法（DQN, SAC）+经验回放；使用Prioritized Experience Replay (PER) 侧重重要经验；改进探索策略（Noisy Nets, Intrinsic Motivation）；增大网络容量（需权衡）。
探索不足：
- 原因： ε衰减过快、策略过早收敛到局部最优、环境奖励稀疏。
- 解决： 减慢ε衰减速率；尝试熵正则化（鼓励策略随机性）；使用内在好奇心模块（Intrinsic Curiosity Module）为探索提供额外奖励；设计更好的奖励函数。
奖励函数设计困难：
- 原因： 真实目标难以量化，设计不当会导致智能体学习到“作弊”行为。
- 解决： 从简单奖励开始逐步增加复杂性；使用逆强化学习（IRL）从专家示范中学习奖励函数；使用基于偏好的奖励学习；进行大量实验和可视化调试。
收敛到次优策略：
- 原因： 局部最优、探索不足、奖励函数设计有缺陷。
- 解决： 增加探索（见问题3）；检查并修改奖励函数；尝试不同的算法或网络初始化；使用集成学习（Ensemble）方法。

8. 创新性与差异性说明

DQN的核心创新 (2013/2015)： 首次成功将深度神经网络与Q-learning结合，端到端地从高维原始输入（像素） 学习控制策略，解决了传统RL方法难以处理复杂感知的问题。
关键差异点：
1. 深度函数逼近器： 用CNN代替手工特征工程处理像素输入。
2. 经验回放： 打破数据相关性，提高样本效率。
3. 目标网络： 稳定训练过程。
后续重要演进：
- Double DQN (2015)： 解耦动作选择和动作评估，显著减轻Q值过估计。
- Dueling DQN (2016)： 将Q网络拆分为状态值函数 $V (s)$ 和优势函数 $A (s, a)$ 流，提高学习效率，尤其在状态值比动作优势更重要时。
- Prioritized Experience Replay (PER, 2016)： 根据经验的学习潜力（如TD误差大小）进行优先级采样，加速学习重要经验。
- Rainbow (2017)： 集成了DQN、Double DQN、Dueling DQN、PER、多步学习、分布式Q学习、Noisy Nets等改进，代表了DQN系列的最高水平。
与早期RL差异： DQN及其变体解决了传统表格型Q-learning在高维状态空间下的维度灾难问题，开启了深度强化学习（Deep RL） 的新时代。

9. 局限性与挑战

样本效率极低： 相比监督学习，RL通常需要与环境进行海量交互才能学到有效策略，限制了其在真实物理世界的应用（如机器人、自动驾驶）。
训练不稳定： 对超参数（学习率、网络结构、探索策略）非常敏感，训练过程可能振荡或崩溃，重现结果困难。
奖励工程困难： 设计能准确反映任务目标且避免意外行为的奖励函数需要大量专业知识和试错。
探索挑战： 在稀疏奖励（只有最终成功才有奖励）或巨大状态空间中，智能体可能难以发现有效策略。
安全性与鲁棒性： 训练过程中智能体可能采取危险或破坏性动作。学习到的策略在训练分布外的状态（OOD）下可能表现不可预测。确保RL系统安全可靠是重大挑战。
仿真到现实的鸿沟 (Sim2Real Gap)： 在仿真中训练的策略迁移到物理世界时性能往往大幅下降，因仿真无法完全模拟真实世界的复杂性和噪声。
理论理解不足： 深度RL的成功很大程度上是经验性的，其泛化性、收敛性等理论基础仍不完善。

10. 未来建议和进一步研究

提高样本效率：
- 研究更强大的Off-Policy算法（如SAC的改进）。
- 发展元强化学习（Meta-RL），使智能体能快速适应新任务。
- 结合世界模型（World Models）进行想象规划（Model-Based + Model-Free）。
- 利用无监督/自监督学习预训练状态表示。
增强鲁棒性与安全性：
- 开发形式化验证RL策略安全性的方法。
- 研究约束强化学习（Constrained RL），显式满足安全约束。
- 改进不确定性估计技术，使智能体能感知未知状态（OOD）。
- 发展对抗性鲁棒训练。
改进探索：
- 设计更高效的内在动机（Intrinsic Motivation）形式。
- 研究基于状态新颖性的探索。
- 结合贝叶斯方法进行定向探索。
弥合Sim2Real鸿沟：
- 发展域随机化（Domain Randomization）和域自适应（Domain Adaptation）技术。
- 构建更高保真的物理仿真器。
- 研究更有效的在线/少量样本适应方法。
多智能体强化学习 (MARL)：
- 解决智能体间协调、竞争、通信等复杂问题。
- 研究非平稳性（Non-stationarity）和信用分配（Credit Assignment）。
- 应用于大规模社会系统建模（交通、经济、社交网络）。
可解释性与理论：
- 发展解释RL智能体决策过程的技术。
- 建立更坚实的深度RL理论基础（收敛性、泛化性）。

11. 扩展阅读与资源推荐

经典教材：
- Sutton & Barto, Reinforcement Learning: An Introduction (2nd Ed) - 必读圣经 http://incompleteideas.net/book/the-book-2nd.html
在线课程：
- David Silver’s RL Course (UCL) https://www.davidsilver.uk/teaching/ - 视频+讲义
- Sergey Levine’s Deep RL (Berkeley) http://rail.eecs.berkeley.edu/deeprlcourse/ - 更深入
- Hugging Face Deep RL Course https://huggingface.co/learn/deep-rl-course/unit0/introduction - 实践性强
实践资源/库：
- OpenAI Gym / Gymnasium: 标准RL环境库 https://gymnasium.farama.org/
- Stable Baselines3: 高质量PyTorch RL算法实现 https://stable-baselines3.readthedocs.io/
- RLlib (Ray): 可扩展的分布式RL库 https://docs.ray.io/en/latest/rllib/index.html
- OpenAI Spinning Up: 优秀的RL学习资源+教学代码 https://spinningup.openai.com/ (注意OpenAI已关闭维护，但资料仍极有价值)
论文/博客：
- DQN (Nature 2015): https://www.nature.com/articles/nature14236
- Rainbow: Combining Improvements in Deep RL (AAAI 2018): https://arxiv.org/abs/1710.02298
- PPO (OpenAI Blog): https://openai.com/research/openai-baselines-ppo
- Lilian Weng’s RL Blog: https://lilianweng.github.io/posts/2018-02-19-rl-overview/ 及其后续文章
社区：
- Reddit r/reinforcementlearning: https://www.reddit.com/r/reinforcementlearning/
- Papers With Code (RL): https://paperswithcode.com/area/reinforcement-learning

12. 图示与交互性内容

概念图： 已在第2节提供MDP和Agent-Environment交互示意图。

流程图 (DQN训练)：

初始化策略网络Q、目标网络Q_target、空回放池D
for episode = 1, M do:
    初始化状态s
    for t = 1, T do:
        以ε概率随机选动作a_t，否则a_t = argmax_a Q(s_t)
        执行a_t，观测奖励r_{t+1}和下一状态s_{t+1}
        存储(s_t, a_t, r_{t+1}, s_{t+1}, done)到D
        从D中采样一个批次的经验
        计算每个样本的Q目标值: y_j = r_j + γ * max_a Q_target(s'_j, a) * (1 - done_j)
        计算损失 L = (Q(s_j, a_j) - y_j)^2 (或Huber)
        更新Q网络参数 (梯度下降)
        每隔C步：Q_target = Q (或软更新)
        s_t = s_{t+1}