深度强化学习研究笔记（2）——Q-learning（Q-learning问题描述，Q-table方法，一个Python小例子）

最新推荐文章于 2026-06-16 12:10:16 发布

原创

最新推荐文章于 2026-06-16 12:10:16 发布 · 8.2k 阅读

标签

#深度学习 #强化学习 #Q-learning #Q-table #学习笔记

收录于

本文深入探讨Q-learning，一种基于价值函数的强化学习方法。通过Q-table学习，阐述Q-value的更新过程，展示了一个使用Python实现Q-learning解决路径规划问题的示例，最终得出能够指导agent自主行动的Q-table。

文章目录

1. Q-learning问题描述
2. Q-learning的一种典型实现方法及示例（Q-table查表法）
3. 利用Q-learning得到的Q-table进行验证（让agent独立行走）
4. 代码实现（Python 2和Python 3均支持）
5. 小结

1. Q-learning问题描述

Q-learning是一种典型的基于价值（Value）函数的强化学习方法，其中的Q是一个数值（可以理解为价值value），通常在初始化时有可能被赋予一个任意数值（因问题场景而异），在迭代时刻 $t$ ，我们有状态 $s_t$ ，此时代理做出动作 $a_t$ ，然后得到奖励 $r_t$ ，从而进入到一个更新的状态 $s_{t+1}$ ，从而Q值得到更新，其更新公式为：

$Q\left( { {s_t},{a_t}} \right) \leftarrow \left( {1 - \alpha } \right) \cdot \underbrace {Q\left( { {s_t},{a_t}} \right)}_{ {\text{old}}\;{\text{value}}} + \underbrace \alpha _{ {\text{learnig}}\;{\text{rate}}} \cdot \overbrace {\left( {\underbrace { {r_t}}_{ {\text{reward}}} + \underbrace \gamma _{ {\text{discount}}\;{\text{factor}}} \cdot \underbrace {\mathop {\max }\limits_a Q\left( { {s_{t + 1}},a} \right)}_{ {\text{estimate}}\;{\text{of}}\;{\text{optimal}}\;{\text{future}}\;{\text{value}}}} \right)}^{ {\text{learned}}\;{\text{value}}} \tag {1}$