机械臂强化学习好入门的项目——SB3/Clean RL

最新推荐文章于 2026-06-21 21:49:12 发布

原创最新推荐文章于 2026-06-21 21:49:12 发布 · 51 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习 #概率论 #机器人 #学习

SB3 代码仓库

Stable-Baselines3 主仓库

https://github.com/DLR-RM/stable-baselines3

这是 SB3 的算法本体，比如 SAC、PPO、TD3、DDPG 等。官方文档也把这个列为 SB3 的 GitHub repository。

SB3-Contrib 仓库

https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

这个里面有 TQC、TRPO 等 SB3 主库外的扩展算法。你要用 TQC，主要就是这个包。

RL Baselines3 Zoo 仓库

https://github.com/DLR-RM/rl-baselines3-zoo

这个是基于 SB3 的训练框架，提供训练、评估、超参数、预训练模型下载/运行等工具

RL Zoo 是训练框架

RL Zoo github仓库链接:https://github.com/DLR-RM/rl-baselines3-zoo

RL Zoo 是围绕 SB3 做的一套实验工具。它提供：

训练脚本
评估脚本
录视频脚本
超参数 yaml
预训练模型下载接口
Hugging Face Hub 交互接口

官方文档里说，RL Baselines3 Zoo 是一个基于 Stable-Baselines3 的训练框架，提供训练、评估、调参、画图和录视频脚本，还包含常见环境和算法的调好超参数以及训练好的 agent。

所以 RL Zoo 的角色更像：

我知道怎么用 SB3 训练这个环境；
我也保存了对应超参数；
我还能帮你下载/运行别人训练好的模型。

CleanRL

https://github.com/vwxyzjn/cleanrl

它的特点就是单文件实现，比如 SAC、PPO、DDPG 这些算法都尽量写在一个独立 Python 文件里，所以比 SB3 那种模块化框架更适合你现在这种“自己加 HER、BC、QFilter、SAGP、日志、断点续训”的改法。CleanRL 官方也强调它是 high-quality single-file implementations，方便理解算法细节和快速改实验。

对应文档是：

https://docs.cleanrl.dev/

你现在本地的 sagp_cleanrl / train_main 其实就是在按 CleanRL 风格自己改。
如果你要重新看原始代码，可以从这些文件开始：

cleanrl/sac_continuous_action.py
cleanrl/ddpg_continuous_action.py
cleanrl/ppo_continuous_action.py

如果你想做自己的算法，CleanRL 更适合“魔改”；如果你只是想快速跑标准 baseline 或加载别人训练好的模型，SB3 / RL Zoo 更方便。