Kubernetes Pod状态异常九大场景盘点

最新推荐文章于 2026-04-25 09:33:47 发布

原创

最新推荐文章于 2026-04-25 09:33:47 发布 · 1.2k 阅读

标签

#java #算法 #数据库 #后端 #面试

收录于

本文详述了Kubernetes Pod在实际工作中遇到的九种典型异常场景，包括调度失败、镜像拉取问题、磁盘挂载异常等，并提供了最佳实践，如通过Pod状态、资源消耗分析和拓扑监控来定位和解决问题，以提高故障排查效率。

Kubernetes Pod 作为 Kubernetes 核心资源对象，不仅 Service、Controller、Workload 都是围绕它展开工作。作为最小调度单元的它，还担任着传统 IT 环境主机的职责，包含了调度，网络，存储，安全等能力。

正是因为 Pod 具有复杂的生命周期和依赖，绝大多数 Kubernetes 问题最终都会在 Pod 上表现出来。因此，我们介绍在实际工作实践中会遇到的 9 种典型场景，以及如何使用 Kubernetes 监控来处理这些场景，快速定位发现问题。

容器是用户进程，Pod 就像是机器，所以调度，网络，存储，安全等机器级别的异常以及进程运行的异常都会在 Pod 上面体现出来。围绕着 Pod 来说，有以下几个关键的点非常容易出现问题：

调度
镜像拉取
磁盘挂载
Liveless/Readiness probe
postStart/preStop handler
配置
运行时

Kubernetes 提供相应的关键观测数据，包括 Pod Status 字段、相关事件、日志、性能指标、请求链路。

那么，接下来我们来盘点一下相关常见的问题场景。

常见问题场景

问题场景 1：就绪失败，即 Pod 一直无法到达 Ready 状态，无法接收请求进行业务处理。

常见的根因如下：

资源不足，无法调度

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

十一技术斩

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Kubernetes故障排查大全【20260402】002篇

老韩的Linux云计算架构师进阶之路

04-03

331

Pod状态层次分析：阶段1：初始化容器阶段初始化容器常见问题：Init:Error/Init:CrashLoopBackOff Init:0/1 - 初始化容器退出码非0 阶段2：主容器阶段高级诊断工具： 1.2 容器深度排错框架 7层排查模型：第1层：容器镜像问题第2层：容器启动配置第3层：运行时依赖第4层：资源限制与调度第5层：存储卷挂载第6层：网络配置第7层：应用运行时 1.3 健康检查深度配置探针高级配置模式：Liveness Probe模式： Readiness Prob

参与评论您还未登录，请先登录后发表或查看评论

kube-state-metrics常见监控指标

qq_43751862的博客

08-18

6260

k8s Prometheus监控，kube-state-metrics常见监控指标

pod健康检查promql：pod 处于非ready告警，增加pod所在的节点ip

Yu的博客

12-11

2058

pod 处于running状态并不代表可以正常接收请求，只有当pod对应的status中condition为true才代表能正常接收请求。以下表达式是在1分钟之内pod处于非ready状态的promql min_over_time(sum by (namespace, pod, prometheus_replica, instance, node) (kube_pod_status_ready{condition!='true', pod =~ '^<.svcName>.*', na.

Kubernetes监控基石：kube-state-metrics核心原理与生产实践指南

最新发布

weixin_35414260的博客

04-25

283

在云原生监控体系中，Prometheus作为核心的时序数据库，负责采集和存储多维度的指标数据。其工作原理是通过抓取目标暴露的HTTP端点来获取指标，并通过强大的PromQL进行查询与分析。为了将Kubernetes集群中丰富的资源对象状态（如Pod、Deployment的运行状况）转化为Prometheus可理解的指标，需要一个关键的“翻译官”——kube-state-metrics。它通过监听Kubernetes API Server，实时将资源对象的期望状态与实际状态（如副本数、Pod阶段）转换为带标签

Kubernetes监控体系(10)-grafana可视化展示k8s组件指标数据

会哭的雨@的博客

06-24

2295

1.kube-state-metrics简介 Kube-state-metrics:通过监听API Server生成有关资源对象的状态指标，比如Deployment、Node、Pod，需要注意的是kube-state-metrics只是简单的提供一个metrics数据，并不会存储这些指标数据，所以我们可以使用Prometheus来抓取这些数据然后存储，主要关注的是业务相关的一些元数据，比如Deployment、Pod、副本状态等；调度了多少个replicas？现在可用的有几个？；多少个Pod是runnin

Kubernetes Kube-state-metrics 资源对象状态监控

小楼一夜听春雨，深巷明朝卖杏花

02-07

6443

有很多种方法可以监控Kubernetes本身，其中包括开源Kubernetes生态系统中的工具，如Heapster和Kube-state-metrics，以及其他商业化和基于SaaS的工具。我们将重点关注如何使用Kube-state-metrics来进行监控。 [1] https://github.com/kubernetes-retired/heapster。 [2] https://github.com/kubernetes/kube-state-metrics。今天向大家介绍一下kube

根因解析｜ Kubernetes Pod状态异常九大场景盘点

小楼一夜听春雨，深巷明朝卖杏花

06-20

753

Kubernetes Pod 作为 Kubernetes 核心资源对象，不仅 Service、Controller、Workload 都是围绕它展开工作。作为最小调度单元的它，还担任着传统 IT 环境主机的职责，包含了调度，网络，存储，安全等能力。正是因为 Pod 具有复杂的生命周期和依赖，绝大多数 Kubernetes 问题最终都会在 Pod 上表现出来。因此，我们介绍在实际工作实践中会遇到的 9 种典型场景，以及如何使用 Kubernetes 监控来处理这些场景，快速定位发现问题。容器是用户进程，Pod

【Pod故障排查】深度解析ContainerCreating/Waiting状态的九大诱因及实战修复指南

weixin_26757925的博客

04-10

386

本文深度解析Kubernetes中Pod卡在ContainerCreating/Waiting状态的九大常见诱因，包括镜像拉取失败、存储卷挂载问题、资源不足等，并提供详细的故障排查指南和实战修复方案，帮助开发者快速定位和解决Pod故障问题。

K8s节点IP改了，但Pod网络不通了？一份排查与修复的完整检查清单

weixin_33701251的博客

04-03

359

本文详细解析了K8s节点IP变更后导致Pod网络不通的故障排查与修复方法，提供了一份完整的九步诊断检查清单。从节点状态异常、证书体系重构到网络插件适配等关键环节，帮助运维人员快速定位问题并恢复业务，同时深入理解K8s网络原理。

【云原生之K8s】 K8s资源控制及探针检查

S314118142的博客

11-08

812

当为Pod中地容器制定了request资源时，调度器就使用该信息来决定将Pod调度到哪个节点上。当还为容器指定了limit资源时，kubelet就会确保运行地容器不会使用超出所设地limit资源量。kubelet还会为容器预留所设地request资源量，供该容器使用 2. 如果Pod所在地节点具有足够地可用资源，容器可以使用超过所设置地request资源量。不过，容器不可以使用超出所设置的limit资源量 3. 如果给容器设置了内存的limit值，但未设置内存的request值，Kubernetes会自

K8S （kubernetes）pod服务 Status 处于 Containercreating，Ready处于0/1 的问题解决

热门推荐

daoerZ的博客

04-16

1万+

运行命令 kubectl get pod pod的status是ContainerCreating，Ready处于0/1 [root@localhost ca]# kubectl get pod NAME READY STATUS RESTARTS AGE my-nginx-379829228-mmsww ...

Kubernetes 常见故障排查和处理

justlpf的专栏

06-09

8022

发现 failed to find plugin “loopback” in path [/opt/loopback/bin /usr/local/bin]如镜像和容器正常，需要reset重置该节点k8s，重新加入集群。以下内容，如修改yaml文件后，执行kubectl apply -f pod.yaml重启pod才生效。需要重启pod解决，kubectl replace --force -f pod.yaml。查看Node节点状态， STATUS Ready表示正常，NotReady不正常。

kubernetes -- Pod健康检查

qq_41619571的博客

09-24

2644

failure=3 表示探测连续失败3次，视为Pod处于failure状态，重启容器。Pod的状态信息在PodStatus中定义，其中有一个phase字段，就是我们熟悉的以下一些状态。如果相应的状态码 ≥ 200 且＜ 400，则诊断认为是成功的。为了执行诊断，kubelet 调用 Container 实现的 Handler，有。timeout=1s 表示容器必须在1秒内反馈信息给探针，否则视为失败。由于探针仅在返回码 ≥200，小于400的情况下返回正常，10秒后探针检测失败，

k8s之pod基础（下）

wyh20030130的博客

01-16

1351

就绪探针的特点：pod的状态是running，ready状态是notready，容器不可以提供正常的业务访问，就绪探针不会重启容器。onFailure：当pod内的容器退出时，整个pod都不会重启，只有一个或者N个容器非正常退出，状态码非0，整个pod才会重启。6、就绪探针，如果不影响容器运行，status:running，这个时候不会重启，但是，容器退出的话，就绪探针也会重启。5、在pod的生命周期当中，后续的条件是满足哪个探针的条件，触发哪个探针的条件。启动存活就绪都针对一个容器。

Kubernetes排错(二)-pod状态异常原因分析

sre救赎之路

02-01

4408

pod异常状态排查方式

kubernetes pod内容器状态OOMKilled和退出码137全流程解析

大叶子不小的博客

02-01

6733

本文研究的都是确定性的问题，好像没有什么意义，话说回来，如果没有学习这些确定性问题的积累，又如何去应对不确定的问题呢？作者：免帅叫哥链接：https://www.jianshu.com/p/0a9718199428来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Pod 异常问题排查

02-25

2167

通过 Kubernetes 部署服务，服务并未按照计划正常提供服务。如何通过 Pod 状态，进行异常问题的定制就显得特别重要了！刚接触 Kubernetes 可能感觉比较蒙，不太知道如何通过 Pod 的状态定位故障。掌握套路之后，其实并没有那么困难！

pod状态异常原因分析

mac99776的博客

06-23

7147

pod状态

深入解读K8s Pod的13种异常状态及其解决方案

abcy071213的博客

06-12

950

深入解读K8s Pod的13种异常状态及其解决方案深入解读K8s Pod的13种异常状态及其解决方案。