机械臂强化学习好入门的项目——SB3/Clean RL

SB3 代码仓库

  1. Stable-Baselines3 主仓库
https://github.com/DLR-RM/stable-baselines3

这是 SB3 的算法本体,比如 SAC、PPO、TD3、DDPG 等。官方文档也把这个列为 SB3 的 GitHub repository。

  1. SB3-Contrib 仓库
https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

这个里面有 TQC、TRPO 等 SB3 主库外的扩展算法。你要用 TQC,主要就是这个包。

  1. RL Baselines3 Zoo 仓库
https://github.com/DLR-RM/rl-baselines3-zoo

这个是基于 SB3 的训练框架,提供训练、评估、超参数、预训练模型下载/运行等工具

 RL Zoo 是训练框架

 RL Zoo github仓库链接:https://github.com/DLR-RM/rl-baselines3-zoo

RL Zoo 是围绕 SB3 做的一套实验工具。它提供:

训练脚本
评估脚本
录视频脚本
超参数 yaml
预训练模型下载接口
Hugging Face Hub 交互接口

官方文档里说,RL Baselines3 Zoo 是一个基于 Stable-Baselines3 的训练框架,提供训练、评估、调参、画图和录视频脚本,还包含常见环境和算法的调好超参数以及训练好的 agent。

所以 RL Zoo 的角色更像:

我知道怎么用 SB3 训练这个环境;
我也保存了对应超参数;
我还能帮你下载/运行别人训练好的模型。

CleanRL

https://github.com/vwxyzjn/cleanrl

它的特点就是单文件实现,比如 SAC、PPO、DDPG 这些算法都尽量写在一个独立 Python 文件里,所以比 SB3 那种模块化框架更适合你现在这种“自己加 HER、BC、QFilter、SAGP、日志、断点续训”的改法。CleanRL 官方也强调它是 high-quality single-file implementations,方便理解算法细节和快速改实验。

对应文档是:

https://docs.cleanrl.dev/

你现在本地的 sagp_cleanrl / train_main 其实就是在按 CleanRL 风格自己改。
如果你要重新看原始代码,可以从这些文件开始:

cleanrl/sac_continuous_action.py
cleanrl/ddpg_continuous_action.py
cleanrl/ppo_continuous_action.py

如果你想做自己的算法,CleanRL 更适合“魔改”;如果你只是想快速跑标准 baseline 或加载别人训练好的模型,SB3 / RL Zoo 更方便。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啵啵鱼爱吃小猫咪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值