Actor-Critic算法实战：用PyTorch在CartPole环境实现强化学习（附完整代码）

最新推荐文章于 2026-02-24 10:18:37 发布

原创

最新推荐文章于 2026-02-24 10:18:37 发布 · 876 阅读

标签

#Actor-Critic #强化学习 #PyTorch #CartPole

Actor-Critic算法实战：从零构建PyTorch智能体玩转CartPole

在OpenAI Gym的经典控制问题中，CartPole（倒立摆）常被称作强化学习的"Hello World"。这个看似简单的环境却蕴含着智能体决策的核心挑战——如何通过连续的动作选择保持杆子直立。本文将带您用PyTorch实现Actor-Critic算法，这种融合策略梯度与价值评估的混合方法，正成为现代强化学习应用的主流选择。

1. 环境配置与算法原理

1.1 CartPole环境解析

CartPole-v0环境的状态空间包含4个连续变量：

小车位置（x）
小车速度（v）
杆子角度（θ）
杆子角速度（ω）

动作空间是离散的二元选择：

0：向左施加力
1：向右施加力

每步奖励为+1，当出现以下情况时回合终止：

杆子倾斜超过15度
小车移动超出2.4个单位
步数超过500步（v1版本为200步）

import gym
env = gym.make('CartPole-v0')
state_dim = env.observation_space.shape[0]  # 4
action_dim = env.action_space.n  # 2

1.2 Actor-Critic架构设计

Actor-Critic的核心创新在于将策略学习（Actor）和价值评估（Critic）分离：

策略网络（Actor）

输入：状态向量（4维）
输出：动作概率分布（2维softmax）
更新方式：策略梯度上升

价值网络（Critic）

输入：状态向量（4维）
输出：状态价值标量
更新方式：TD误差最小化

两网络共享状态特征提取层但各有独立输出层，形成互补学习机制。这种结构既避免了纯策略方法的高方差，又克服了纯价值方法的函数逼近误差。

2. 网络实现与训练流程

2.1 双网络PyTorch实现

import torch
import torch.nn as nn
import torch.nn.functional

最低0.47元/天解锁文章