Python实战：用Q-Learning算法解决迷宫问题（附完整代码与可视化）

最新推荐文章于 2026-04-15 17:36:59 发布

原创

最新推荐文章于 2026-04-15 17:36:59 发布 · 653 阅读

标签

#Q-Learning #强化学习 #Python #算法

从零到一：用Python和Q-Learning玩转迷宫寻路，手把手教你实现动态可视化

最近在和一些开发者朋友交流时，发现大家对强化学习的兴趣越来越浓，但往往被那些复杂的数学公式和抽象的理论劝退。其实，强化学习里有一个非常经典且“接地气”的算法——Q-Learning，它就像是一个在迷宫里不断试错、最终找到出口的聪明小老鼠。今天，我就想抛开那些晦涩的术语，带大家用Python亲手实现一个Q-Learning智能体，让它在一个自定义的迷宫里学习寻路，并且整个过程我们会用matplotlib实时画出来，看着它从“菜鸟”变成“高手”。这篇文章适合所有有一定Python基础，想通过一个有趣的项目快速理解强化学习核心思想的开发者。我们会从最基础的迷宫环境搭建开始，一步步构建算法，并深入探讨几个关键参数如何像“调音师”一样影响学习效果，最后你不仅能得到一套完整的、可运行的代码，还能获得一个记录智能体学习过程的酷炫动态GIF。

1. 环境搭建与问题定义：创造一个属于你的迷宫

在让智能体开始学习之前，我们得先为它创造一个“世界”。这个“世界”就是迷宫。我们完全可以用一个简单的二维列表（List of Lists）来定义它，这比想象中要直观得多。

# 迷宫定义示例
maze = [
    ["S", ".", ".", "X", ".", "."],
    [".", "X", ".", ".", ".", "X"],
    [".", ".", "X", ".", "X", "."],
    ["X", ".", ".", ".", "X", "G"],
    [".", ".", "X", ".", ".", "."]
]

在这个矩阵里，我们用几个简单的符号代表不同元素：

S (Start): 智能体的出生点，通常是 (0, 0)。
G (Goal): 智能体梦寐以求的终点，到达这里会获得丰厚的奖励。
. (Path): 可以自由通行的路径，但每走一步会有一点小小的“体力惩罚”（负奖励）。
X (Wall): 一堵墙，智能体无法穿越。如果试图撞墙，它会受到惩罚并停留在原地。

注意：迷宫的复杂程度直接影响训练难度。一个4x4的简单迷宫可能几十轮训练就能收敛，而一个8x8布满障碍的迷宫可能需要上千轮。建议先从简单的开始，逐步增加复杂度。

智能体在这个世界里的行动是离散的，我们定义四个基本动作：上、下、左、右。它的任务就是在不撞墙的前提下，找到从S到G最短（或奖励最高）的路径。这里就引出了强化学习的核心交互逻辑：智能体观察当前所在位置（状态State），选择一个动作（Action），环境反馈一个新的位置和这一步的得分（Reward），如此循环。

为了让这一切更直观，我们初始化一个可视化界面。我习惯用matplotlib的subplot来同时展示多个视角：

import matplotlib.pyplot as plt
import numpy as np

plt.ion()  # 开启交互模式
fig = plt.figure(figsize=(15, 5))

# 三个子图：迷宫实时探索、Q值热力图、奖励收敛曲线
ax_maze = fig.add_subplot(131)
ax_heatmap = fig.add_subplot(132)
ax_curve = fig.add_subplot(133)

ax_maze.set_title("Live Maze Exploration")
ax_maze.set_aspect('equal')
# 反转Y轴，让矩阵的(0,0)显示在左上角，更符合我们的思维习惯
ax_maze.invert_yaxis()

最低0.47元/天解锁文章