SB3 代码仓库
- Stable-Baselines3 主仓库
https://github.com/DLR-RM/stable-baselines3
这是 SB3 的算法本体,比如 SAC、PPO、TD3、DDPG 等。官方文档也把这个列为 SB3 的 GitHub repository。
- SB3-Contrib 仓库
https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
这个里面有 TQC、TRPO 等 SB3 主库外的扩展算法。你要用 TQC,主要就是这个包。
- RL Baselines3 Zoo 仓库
https://github.com/DLR-RM/rl-baselines3-zoo
这个是基于 SB3 的训练框架,提供训练、评估、超参数、预训练模型下载/运行等工具
RL Zoo 是训练框架
RL Zoo github仓库链接:https://github.com/DLR-RM/rl-baselines3-zoo
RL Zoo 是围绕 SB3 做的一套实验工具。它提供:
训练脚本
评估脚本
录视频脚本
超参数 yaml
预训练模型下载接口
Hugging Face Hub 交互接口
官方文档里说,RL Baselines3 Zoo 是一个基于 Stable-Baselines3 的训练框架,提供训练、评估、调参、画图和录视频脚本,还包含常见环境和算法的调好超参数以及训练好的 agent。
所以 RL Zoo 的角色更像:
我知道怎么用 SB3 训练这个环境;
我也保存了对应超参数;
我还能帮你下载/运行别人训练好的模型。
CleanRL
https://github.com/vwxyzjn/cleanrl
它的特点就是单文件实现,比如 SAC、PPO、DDPG 这些算法都尽量写在一个独立 Python 文件里,所以比 SB3 那种模块化框架更适合你现在这种“自己加 HER、BC、QFilter、SAGP、日志、断点续训”的改法。CleanRL 官方也强调它是 high-quality single-file implementations,方便理解算法细节和快速改实验。
对应文档是:
https://docs.cleanrl.dev/
你现在本地的 sagp_cleanrl / train_main 其实就是在按 CleanRL 风格自己改。
如果你要重新看原始代码,可以从这些文件开始:
cleanrl/sac_continuous_action.py
cleanrl/ddpg_continuous_action.py
cleanrl/ppo_continuous_action.py
如果你想做自己的算法,CleanRL 更适合“魔改”;如果你只是想快速跑标准 baseline 或加载别人训练好的模型,SB3 / RL Zoo 更方便。

1144

被折叠的 条评论
为什么被折叠?



