Kubernetes笔记(十) Kubernetes 监控 & 调试

最新推荐文章于 2026-06-12 15:10:37 发布

原创

最新推荐文章于 2026-06-12 15:10:37 发布 · 2.5k 阅读

标签

#kubernetes

本文详细介绍了Kubernetes监控的两种主要工具——MetricsServer和Prometheus，包括它们的工作原理、部署方法及示例。同时，文章也涵盖了Pod和服务的调试、网络问题排查以及集群组件的故障诊断流程，为日常运维提供了实用的指南。

文章目录

一. Kubernetes 监控

1.1 Metrics Server

Metrics Server 是 Kubernetes 提供的监控工具，主要用来收集 Node 和 Pod 的 CPU、内存使用情况。其本质就是通过 kube-aggregator 实现的一个 server。
在这里插入图片描述

图片来自 https://www.jetstack.io/blog/resource-and-custom-metrics-hpa-v2/

Kubelet 内置了 cAdvisor 服务运行在每个节点上收集容器的各种资源信息，并对外提供了 API 来查询这些信息。Metric Server 正是访问 Kubelet 提供的 /stats/summary API 来获取监控数据，只要有这个 API 其实我们完全可以自行实现一个 Kubernetes 指标收集工具。

可以通过下面命令安装 MetricServer

$ kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml

安装完成后就可以通过 kubectl top 命令查看 Pod 和 Node 的资源使用信息了。

$ kubectl top nodes
NAME            CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
tk01            217m         10%    5296Mi          68%
vm-0-2-ubuntu   84m          4%     1189Mi          32%

$ kubectl top pods --all-namespaces
NAMESPACE     NAME                              CPU(cores)   MEMORY(bytes)
kube-system   coredns-f9fd979d6-jzv8q           4m           10Mi
kube-system   coredns-f9fd979d6-tx9m4           4m           10Mi
kube-system   etcd-tk01                         14m          50Mi
kube-system   kube-apiserver-tk01               31m          293Mi

1.2 Prometheus

Prometheus 是 CNCF 的第二个毕业项目，目前已经是 Kubernetes 监控方面的事实标准。其架构如图：
在这里插入图片描述

其提供了若干组件来完成数据的收集、存储、展示与告警等：

数据收集组件：Prometheus 采用 pull 的模式定期从各个目标收集数据。对于应用指标收集，应用只需要提供一个类似 /metrics 接口供 Prometheus 访问即可，对于中间件、系统的监控，由官方和社区维护了一系列的 Exporter 来实现数据的收集。对于某些短时任务可以通过 pushGateway 来实现，先将任务的指标收集到 gateway，在被 pull 到 Prometheus 。
Prometheus Server: 存储数据，Prometheus 内置的时序数据库，也可以使用外部的 InfluxDB 等其他存储。关于数据的存储原理可以看之前皓哥的分享技术分享：Prometheus是怎么存储数据的（陈皓）。
AlertManager: 告警组件，可以根据一系列规则实现及时的告警。
数据展示组件：Prometheus 本身提供了 API 供外部查询各种指标，同时也内置了 UI 界面实现可视化查询与展示，另外比较常用的是结合 Grafana 实现数据的可视化。

这里只对 Prometheus 监控 Kubernetes 做一个简单的 demo，其监控架构如图，从 Kubernetes 组件、节点以及各种中间件中收集数据并存储，然后经由 Grafana 展示并提供给 AlertManager 展示。当然还可以使用 remote_write 配置将指标发送到指定的地方根据需要做进一步的清洗、存储、查询。

在这里插入图片描述

就 Kuberetes 而言，其监控数据分为三种:

主机指标：Kubernetes 各个宿主机节点的指标，由 Node Exporter 提供。
组件指标：Kuberetes 各个组件的指标，比如 api-server、kubelet 等组件的指标，这个由各个组件的 /metrics API 提供。
核心指标： Kubernetes 中各种资源对象的数据，比如 Pod 、Node、容器的各种指标，NameSpace、Deployment 、Service 等各种资源的信息。

下面是部署 Prometheus 并查看监控的一个示例，目前在 Kuberetes 中有三种方式安装 Prometheus:

这里我使用 prometheus-operator 作为部署方式：

$ git clone https://github.com/prometheus-operator/kube-prometheus.git
kubectl create -f manifests/setup
until kubectl get servicemonitors --all-namespaces ; do date; sleep 1

最低0.47元/天解锁文章