基于DCGM+Prometheus+Grafana的GPU监控方案

原创

已于 2025-04-22 15:44:21 修改 · 5.7k 阅读

标签

#prometheus #grafana #GPU #云计算

收录于

于 2024-10-10 18:53:03 首次发布

前言

基于DCGM（NVIDIA 数据中心GPU管理器）、Prometheus 和 Grafana 的GPU监控方案提供了一种全面的方式来跟踪和实时可视化GPU的使用和性能指标。通过DCGM收集详细的NVIDIA GPU遥测数据，并将其导出到Prometheus进行存储和处理，最后使用Grafana通过直观的仪表板展示这些数据，达到下图所示的效果。
在这里插入图片描述

一、指标导出器

1、DCGM：

NVIDIA 数据中心 GPU 管理器（DCGM）是一套工具，用于在集群环境中管理和监控 NVIDIA 数据中心 GPU。它包括主动运行状况监控、全面诊断、系统警报和治理策略，包括电源和时钟管理。它可以由基础设施团队独立使用，并轻松集成到 NVIDIA 合作伙伴的集群管理工具、资源调度和监控产品中。

快速开始：https://github.com/NVIDIA/DCGM#ubuntu-lts:

# 设置 CUDA 网络存储库元数据，GPG 密钥：
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"

安装 DCGM:

sudo apt-get update 
sudo apt-get install -y datacenter-gpu-manager

启动 DCGM 服务:

#开机自启&立即启动
sudo systemctl --now enable nvidia-dcgm

查看是否启动：

dcgmi  -v

在这里插入图片描述

停止服务

sudo systemctl stop nvidia-dcgm

获取远程节点的信息

我在github上提了一个issue：Can DCGM achieve obtaining gpu information of another host? #133

在这里插入图片描述 </

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Pretend ^^

关注关注

23
点赞
踩
45

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Prometheus安装部署——（DCGM）NVIDIA GPU监控

Jack_Tpy的Java学习之旅

09-08

6671

一、（DCGM）NVIDIA GPU监控安装go语言环境 sudo apt install golang-go # 验证安装是否成功 go version 下载datacenter-gpu-manager（DCGM）从https://developer.nvidia.com/dcgm注册后下载DCGM 安装DCGM sudo dpkg -i datacenter-gpu-manager_1.7.2_amd64.deb 下载gpu-monitoring-tools git clone

1 条评论您还未登录，请先登录后发表或查看评论

GPU监控工具DCGM

7B_Geek的博客

02-12

7340

是专为数据中心设计的GPU监控与管理工具，支持实时监控、性能分析和自动化运维。

dcgm-exporter采集全部指标

weixin_44544263的博客

01-13

819

摘要系统日志显示多种XID错误(48,63,94等)，但DCGM监控仅上报了XID 120错误。分析发现DCGM_FI_DEV_XID_ERRORS指标默认仅捕获特定类型错误。解决方案是扩展dcgm-exporter配置，通过创建ConfigMap挂载包含所有监控指标的default-counters.csv文件，覆盖时钟、温度、功耗、PCIE、利用率、错误、内存、ECC等完整监控项。修改后dcgm-exporter将能上报所有XID错误类型，实现更全面的GPU监控。

commitlint主题定制终极指南：打造个性化提交信息体验

热门推荐

mixboot

06-08

2万+

Prometheus GPU 监控1，Prometheus GPU 监控 1，Prometheus GPU 监控安装DCGM 参考： Prometheus + Grafana 监控 NVIDIA GPU DCGM 1.7.2 Downloads (December 2019)

服务器GPU集群硬件资源监控完整部署指南

weixin_47958619的博客

03-10

3012

Grafana + Prometheus + DCGM：GPU监控完整部署指南

构建基于 DCGM-Exporter, Node exporter,PROMETHEUS 和 GRAFANA 构建算力监控系统

weixin_43408232的博客

11-05

2365

目前的大多数教程都倾向于详细讲解DCGM，Node exporter，PROMETHEUS 和 GRAFANA 的概念，设计和作用，使得这一系统的部署问题变得非常复杂。本文倾向于直接部署直接应用，所以不死磕原理，而直接概述其作用，能够基本认识到它们的作用，然后实现部署。

MedGemma X-RayGPU监控：Prometheus+Grafana可视化GPU资源看板

weixin_30205153的博客

02-18

327

本文介绍了如何在星图GPU平台上自动化部署MedGemma X-Ray医疗图像分析系统，并为其构建GPU资源监控方案。该系统作为AI影像解读助手，能够快速分析胸部X光片并生成结构化报告，显著提升医疗影像诊断效率。通过集成Prometheus与Grafana，用户可实时可视化GPU使用情况，确保AI应用稳定高效运行。

构建全链路GPU监控：从DCGM-Exporter到Grafana的可视化实践

weixin_29248611的博客

02-07

328

本文详细介绍了如何构建全链路GPU监控系统，从DCGM-Exporter到Grafana的可视化实践。通过部署NVIDIA DCGM、DCGM-Exporter、Prometheus和Grafana，实现GPU关键指标的实时监控、历史回溯和智能告警，显著提升深度学习训练和科学计算场景中的问题排查效率与资源利用率。

DCGM-Exporter 安装与使用教程

gitblog_00996的博客

08-09

2543

DCGM-Exporter 安装与使用教程 dcgm-exporterNVIDIA GPU metrics exporter for Prometheus leveraging DCGM项目地址:https://gitcode.com/gh_mirrors/dc/dcgm-exporter 1. 项目目录结构及介绍在DCGM-Exporter项目中，主要目录结构如下： ./cmd/: 包含可...

GPU监控

null

04-15

3634

说明 NVIDIA Data Center GPU Manager (DCGM) 是一套用于在集群环境中管理和监视Tesla™GPU的工具。可以集成到Prometheus监控方案中。部署从 https://developer.nvidia.com/dcgm 下载deb包（需要注册） sudo dpkg -i datacenter-gpu-manager_1.7.2_amd64.deb sy...

DCGM Exporter

process的博客

02-16

2756

写在前面：健康检查：https://docs.nvidia.com/datacenter/dcgm/dcgm-user-guide/feature-overview.html#background-health-checks其实我想找到能够检测gpu error 不能使用的metrics，但是没有找到，呜呜呜呜呜。寻求解决方案，欢迎留言一、背景因为gpu集群越来越大，为及时发现故障需要设置gpu物理告警。二、相关方法论1、dcgm-exporter是能够拿到gpu的使用量、温度、一些ecc错误数的指标。但是

GCDM_exporter部署过程记录

weixin_46424009的博客

05-16

1553

yaml文件地址:github地址:https://github.com/NVIDIA/dcgm-exporter/blob/main/dcqm-exporter.yaml。

【亲测免费】 NVIDIA Data Center GPU Manager (DCGM) 常见问题解决方案

gitblog_00185的博客

12-03

2115

NVIDIA Data Center GPU Manager（DCGM）是一个用于管理和监控NVIDIA数据中心GPU的套件，适用于集群环境。DCGM提供主动健康监控、全面诊断、系统警报以及包括电源和时钟管理在内的治理策略。它可以独立使用，也可以轻松集成到集群管理工具、资源调度和监控产品中。DCGM简化了数据中心GPU的管理，提高了资源可靠性和正常运行时间，自动化了管理任务，并有助于提高整体基础设...

GPU监控的隐形战场：揭秘dcgm-exporter与Prometheus的协同作战

weixin_29266647的博客

02-02

336

本文深入探讨了GPU监控的关键技术，重点介绍了dcgm-exporter与Prometheus的协同工作机制。通过解析监控体系架构、部署实战和指标解读，帮助用户实现从硬件状态到计算负载的全方位GPU监控，特别适用于k8s集群环境中的AI训练和高性能计算场景。

NVIDIA GPU监控神器：DCGM-Exporter快速部署终极指南

gitblog_00348的博客

12-31

973

在AI计算和深度学习蓬勃发展的今天，**NVIDIA GPU监控工具**已成为每个数据科学家和运维工程师必备的技能。DCGM-Exporter作为业界领先的GPU监控解决方案，能够实时采集GPU的各项性能指标并通过Prometheus格式暴露，为您的GPU集群提供全方位的监控洞察。本文将为您详细介绍如何快速部署和使用这款强大的监控工具。🚀 ## 什么是DCGM-Exporter？ **DCG