目录
日志:Xid 54 Power supply fault detected
日志:Xid 69 Thermal throttling event
Xid 74 NVLink 链路故障(A100/H100 多卡)
日志:Xid 74 NVLink communication error
日志:Xid 79 GPU fell off PCI bus
区分 Xid119:Xid79 是 PCI 物理通道断开,lspci无法识别显卡;Xid119 PCI 正常仅 GSP 卡死。
五、GSP 固件核心故障(Xid119/Xid120/Xid154,多卡服务器最高频故障)
Xid 154 GPU 需要硬件复位(伴随 119/120 次生报错)
八、实战案例:RTX4090 Xid119+Xid154 静电锁死复盘
一、Xid 基础概述
1. 什么是 Xid
Xid(Exception ID)是 NVIDIA 内核驱动 NVRM 输出的硬件 / 软件异常日志,打印于dmesg、journalctl -k、系统内核日志。当 GPU 算力引擎、显存、PCIe、GSP 固件、NVLink、CUDA 程序、供电温控出现异常时,驱动会输出标准化 Xid 报错,每条日志包含故障 PCI 总线、GPU 编号、故障码、异常描述,是定位显卡故障唯一核心依据NVIDIA 文档中心。 标准日志格式示例:
NVRM: Xid (PCI:0000:98:00): 119, pid=3744, Tim
订阅专栏 解锁全文

9

被折叠的 条评论
为什么被折叠?



