（6）ceph集群osd down 故障处理

最新推荐文章于 2025-09-08 08:32:30 发布

转载

最新推荐文章于 2025-09-08 08:32:30 发布 · 2.7k 阅读

收录于

本文档详细介绍了当Ceph集群中OSD出现故障时的处理步骤，包括查看OSD状态，确定故障硬盘，从Crush Map中移除故障OSD，删除密钥，更换硬盘并重建OSD，最后重新启用集群数据均衡。

（1）查看集群状态，发现2个osd 状态为down

[root@node140 /]# ceph -s 
  cluster:
    id:     58a12719-a5ed-4f95-b312-6efd6e34e558
    health: HEALTH_ERR
            noout flag(s) set
            2 osds down
            1 scrub errors
            Possible data damage: 1 pg inconsistent
            Degraded data redundancy: 1633/10191 objects degraded (16.024%), 84 pgs degraded, 122 pgs undersized

  services:
    mon: 2 daemons, quorum node140,node142 (age 3d)
    mgr: admin(active, since 3d), standbys: node140
    osd: 18 osds: 16 up (since 3d), 18 in (since 5d)
         flags noout

  data:
    pools:   2 pools, 384 pgs
    objects: 3.40k objects, 9.8 GiB
    usage:   43 GiB used, 8.7 TiB / 8.7 TiB avail
    pgs:     1633/10191 objects degraded (16.024%)
             261 active+clean
             84  active+undersized+degraded
             38  active+undersized
             1   active+clean+inconsistent

（2）查看o