Slurm(Simple Linux Utility for Resource Management):Linux 集群资源调度管理器,负责节点、CPU、内存、GPU 资源分配、任务排队、启停管理,你现在用的#SBATCH脚本就是 Slurm 作业脚本。
一、SBATCH 脚本注释参数(#SBATCH,写在脚本头部)
#!/bin/bash
#SBATCH -p a100 # -p/--partition:指定分区(队列名),你的A100卡就在a100分区
#SBATCH --gres=gpu:1 # --gres=gpu:N:申请N张GPU,A100=1张
#SBATCH --cpus-per-task=12 # 每个任务绑定CPU核心数
#SBATCH --mem=20G # 申请总内存
#SBATCH -o xxx.out # -o:标准输出日志
#SBATCH -e xxx.err # -e:错误日志
#SBATCH --time=02:00:00 # 任务最大运行时长 时:分:秒,超时强制杀任务
#SBATCH -J AF_run # -J/--job-name:任务名,对应%x
#SBATCH --nodelist=node01 # 指定机器运行(极少用)
占位符:
%j=jobid、%x=任务名,就是你日志里58516110_AF-A0A444Z5D0_353.out来源。
二、核心提交 / 管理命令
1. 提交任务
sbatch run_af3_zn.sbatch # 提交sbatch脚本入队
PEPID=ID1 sbatch xxx.sbatch # 环境变量传入脚本(你批量提交用法)
2. 查看任务
squeue # 查看全集群所有排队+运


1万+

被折叠的 条评论
为什么被折叠?



