目录
前言
基于DCGM(NVIDIA 数据中心GPU管理器)、Prometheus 和 Grafana 的GPU监控方案提供了一种全面的方式来跟踪和实时可视化GPU的使用和性能指标。通过DCGM收集详细的NVIDIA GPU遥测数据,并将其导出到Prometheus进行存储和处理,最后使用Grafana通过直观的仪表板展示这些数据,达到下图所示的效果。

一、指标导出器
1、DCGM:
NVIDIA 数据中心 GPU 管理器 (DCGM) 是一套工具,用于在集群环境中管理和监控 NVIDIA 数据中心 GPU。它包括主动运行状况监控、全面诊断、系统警报和治理策略,包括电源和时钟管理。它可以由基础设施团队独立使用,并轻松集成到 NVIDIA 合作伙伴的集群管理工具、资源调度和监控产品中。
快速开始:https://github.com/NVIDIA/DCGM#ubuntu-lts:
# 设置 CUDA 网络存储库元数据,GPG 密钥:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
安装 DCGM:
sudo apt-get update
sudo apt-get install -y datacenter-gpu-manager
启动 DCGM 服务:
#开机自启&立即启动
sudo systemctl --now enable nvidia-dcgm
查看是否启动:
dcgmi -v

停止服务
sudo systemctl stop nvidia-dcgm
获取远程节点的信息
我在github上提了一个issue:Can DCGM achieve obtaining gpu information of another host? #133
</


6671

被折叠的 条评论
为什么被折叠?



