1. 系统状态速查:从开机到运行,一眼看清设备“健康度”
刚接手一台华为交换机,或者半夜被电话叫醒说网络不通,第一件事该干嘛?我的经验是,别急着敲复杂的诊断命令,先来一套“全身检查”,把设备的“健康状态”摸个底。这就像医生看病,先量体温、测血压,而不是直接开刀。华为交换机里,有几个 display 命令就是你的“听诊器”和“体温计”,用好了,五分钟内就能对设备有个基本判断。
首先,display version 这个命令我几乎每次登录都会敲。它输出的信息远不止软件版本号那么简单。你仔细看,它能告诉你设备的完整型号(比如 S5735-L24P4S-A1)、当前运行的 VRP(通用路由平台)系统版本、编译时间,还有关键的单板(业务板)信息。有一次,我遇到一台交换机频繁重启,用 display version 一看,发现其 U-Boot(引导程序)版本非常老,与当前系统不匹配,这就是问题的根源。所以,看版本不仅是确认型号,更是排查兼容性问题的第一步。
紧接着,我会用 display device 来做个“硬件体检”。这个命令以表格形式清晰列出设备上所有槽位的状态。重点关注“Status”这一列,正常应该是“Normal”。如果看到“Abnormal”(异常)或者“Offline”(离线),那很可能就是硬件故障了,比如某块业务板没插好或者坏了。这个命令能让你快速定位是整机问题还是某个局部模块的问题。
设备的基础运行参数也不能放过。display cpu-usage 和 display memory 是看资源消耗的黄金组合。display cpu-usage 会显示最近5秒、1分钟、5分钟的CPU利用率。平时利用率低是正常的,但如果发现持续超过70%甚至更高,尤其是“5分钟”这个平均值很高,那就要警惕了,可能有异常进程、路由震荡或者广播风暴。display memory 则看内存使用率,如果空闲内存(Free)所剩无几,设备可能会变慢甚至丢包。我习惯把这两个命令的结果一起看,综合判断设备负载。
环境监控对设备稳定运行至关重要,特别是放在机柜里散热条件可能不太理想的时候。display temperature 可以查看设备关键部位(如入风口、出风口、CPU等)的当前温度和历史最高温度。如果当前温度接近或超过“HighTemp阈值”,就得赶紧检查散热了。配合 display fan 查看风扇状态,确保所有风扇都在“Normal”转速下运转。我曾经就靠这个命令发现一个风扇模块故障,提前更换,避免了一次因过热导致的业务中断。
最后,别忘了看一眼 display clock。系统时间不准是个“隐形杀手”,会导致日志时间错乱、与认证服务器时间不同步(比如802.1X认证失败)、计划任务无法执行等问题。确保设备时间准确,或者配置了NTP同步,是运维的好习惯。
把这几个命令组合起来用,就是一个高效的“设备健康检查脚本”雏形。每次巡检或故障初期,花一两分钟跑一遍,心里就有底了。
2. 接口与链路诊断:揪出网络卡顿的“元凶”
网络问题,十有八九出在链路上。接口状态、流量、错误包,这些是排查链路层故障的核心。华为交换机提供了非常强大的接口信息查看命令,用好了,你就能像老中医一样,对“经脉不通”的问题手到病来。
最常用、信息量最大的莫过于 display interface brief 和 display i


79

被折叠的 条评论
为什么被折叠?



