k8s集群出现无法恢复错误需要进行重置

最新推荐文章于 2024-07-29 10:12:12 发布

原创最新推荐文章于 2024-07-29 10:12:12 发布 · 466 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#kubernetes #容器 #云原生

收录于

k8s 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了如何在Kubernetes集群遇到错误时，通过标记节点为不可调度、驱逐Pod、删除网络插件、清理kubelet配置和etcd数据，以及重新初始化的过程。

如果集群出错需要进行重置

主节点

kubectl cordon k8s-node01 
 ##标记节点为不可调度
kubectl cordon k8s-node02  
kubectl drain k8s-node01  --ignore-daemonsets  
##驱逐指定节点的pod（pod会重新运行在其他节点）如果报错再加一个--force和--delete-local-data
kubectl drain k8s-node02  --ignore-daemonsets
所有节点删除网络插件
kubectl  delete  nodes k8s-node01
kubectl  delete  nodes k8s-node02

ip a 
如果有 cni0 与 flannel.1 需要把网卡进行删除
ifconfig cni0 down
ip link delete cni0
ifconfig flannel.1 down
ip link delete flannel.1
# 如果还有ipvs也需要进行删除

rm -rf /etc/kubernetes/*
kubeadm reset   
rm -rf /etc/kubernetes/*
rm -rf ~/.kube/*
rm -rf /var/lib/etcd/*
rm -rf /var/lib/cni/
rm -fr /etc/cni/net.d
重新使用kubeadm init初始化即可

node（所有node节点）：

systemctl stop kubelet
rm -rf /etc/kubernetes/*
kubeadm  reset

ip a 
如果有 cni0 与 flannel.1 需要把网卡进行删除
ifconfig cni0 down
ip link delete cni0
ifconfig flannel.1 down
ip link delete flannel.1
# 如果还有ipvs也需要进行删除