文档章节

Kubernetes节点失效删除Route记录后恢复

openthings
 openthings
发布于 02/26 11:51
字数 691
阅读 28
收藏 0

kubernetes集群在调整网络后,其中一个 node 节点出现NotReady状态。可以ssh登录到该节点,kubectl get node无法访问集群的master节点,ping一下主服务器的地址也出现异常,如下:

supermap@podc04:/etc/keepalived$ ping 10.1.1.199
connect: 无效的参数

路由问题

检查一下路由表,如下:

supermap@podc04:/etc/keepalived$ route
内核 IP 路由表
目标            网关            子网掩码        标志  跃点   引用  使用 接口
default         router.asus.com 0.0.0.0         UG    300    0        0 bond0
10.1.1.0        0.0.0.0         255.255.255.0   U     300    0        0 bond0
10.1.1.199      0.0.0.0         255.255.255.255 UH    300    0        0 bond0
link-local      0.0.0.0         255.255.0.0     U     1000   0        0 bond0
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 docker0

发现一个奇怪的路由记录,集群的apiserver地址10.1.1.199路由记录。其它节点都是没有的。

删除该路由记录,如下:

sudo route del -net 10.1.1.199 netmask 255.255.255.255

再次检查路由表,如下:

supermap@podc04:/etc/keepalived$ route
内核 IP 路由表
目标            网关            子网掩码        标志  跃点   引用  使用 接口
default         router.asus.com 0.0.0.0         UG    300    0        0 bond0
10.1.1.0        0.0.0.0         255.255.255.0   U     300    0        0 bond0
link-local      0.0.0.0         255.255.0.0     U     1000   0        0 bond0
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 docker0
supermap@podc04:/etc/keepalived$ ping 10.1.1.199
PING 10.1.1.199 (10.1.1.199) 56(84) bytes of data.
64 bytes from 10.1.1.199: icmp_seq=1 ttl=64 time=0.232 ms
64 bytes from 10.1.1.199: icmp_seq=2 ttl=64 time=0.210 ms
64 bytes from 10.1.1.199: icmp_seq=3 ttl=64 time=0.187 ms
^Z

获取节点信息,通讯已经恢复,如下:

supermap@podc04:/etc/keepalived$ kubectl get node
NAME     STATUS   ROLES    AGE    VERSION
podc01   Ready    master   69d    v1.13.3
podc02   Ready    <none>   63d    v1.13.3
podc03   Ready    <none>   69d    v1.13.3
podc04   Ready    <none>   69d    v1.13.3
pods01   Ready    <none>   67d    v1.13.3
pods02   Ready    <none>   64d    v1.13.3
pods03   Ready    <none>   64d    v1.13.3
pods04   Ready    <none>   64d    v1.13.3
pods05   Ready    <none>   7d1h   v1.13.3

再次使用ping 10.1.1.199,完全正常。

只是不知道这个路由记录是怎么被加上的,因为运行正常,暂时不去管了。

CNI问题

其中一个节点的Nvidia镜像启动失败,提示“CNI故障”,检查flannel服务失败。

重新运行flannel安装程序后,恢复正常运行状态。如下:

kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml

Kube-proxy问题

其中一个节点的kube-proxy服务镜像运行失败,为后来新加的节点。

检查该节点的kube-proxy的images为1.13.1版本,该机不存在该版本的镜像。

  • 估计是添加时自动获取的版本为1.13.1,但在后来升级为1.13.4了(已经拉取到该机)。
  • 运行状态显示仍然使用的是1.13.1版本。

到Dashboard将kube-system中的服务集kube-proxy的images版本改为 1.13.4,该节点的kube-proxy服务恢复正常。

 

© 著作权归作者所有

openthings
粉丝 322
博文 1139
码字总数 689012
作品 1
东城
架构师
私信 提问
Kubernetes 1.14.2快速升级

Kubernetes 1.14.2已经正式发布,快速升级(含国内镜像快速下载链接)包括升级kubeadm/kubectl/kubelet版本、拉取镜像、升级Kubernetes集群三个主要步骤。参考《Ubuntu上软件锁定版本不更新》...

openthings
05/23
97
0
Kubernetes 1.15.0快速升级

Kubernetes 1.15.0已经正式发布,快速升级(含国内镜像快速下载链接)包括升级kubeadm/kubectl/kubelet版本、拉取镜像、升级Kubernetes集群三个主要步骤。参考《Ubuntu上软件锁定版本不更新》...

openthings
07/08
160
0
Kubernetes 1.16.0快速升级

Kubernetes 1.16.0已经正式发布,快速升级(含国内镜像快速下载链接)包括升级kubeadm/kubectl/kubelet版本、拉取镜像、升级Kubernetes集群三个主要步骤。参考《Ubuntu上软件锁定版本不更新》...

openthings
今天
19
0
Kubernetes 1.14.1快速升级

Kubernetes 1.14.1已经正式发布,快速升级(含国内镜像快速下载链接)包括升级kubeadm/kubectl/kubelet版本、拉取镜像、升级Kubernetes集群三个主要步骤。参考《Ubuntu上软件锁定版本不更新》...

openthings
03/31
514
0
Kubernetes集群的主节点备份与恢复

通常安装模式下(如使用kubeadm)的Kubernetes集群,主节点(Master)只有一个,而且集群数据存储服务etcd也只运行了一个实例。如果遇到极端情况(如整机故障、主硬盘损坏、数据误删除等)导...

openthings
2018/12/06
486
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊nacos的NacosDiscoveryAutoConfiguration

序 本文主要研究一下nacos的NacosDiscoveryAutoConfiguration NacosDiscoveryAutoConfiguration nacos-spring-boot-project/nacos-discovery-spring-boot-autoconfigure/src/main/java/com/a......

go4it
29分钟前
4
0
如何保证消息的顺序性?

面试题 如何保证消息的顺序性? 面试官心理分析 其实这个也是用 MQ 的时候必问的话题,第一看看你了不了解顺序这个事儿?第二看看你有没有办法保证消息是有顺序的?这是生产系统中常见的问题...

米兜
33分钟前
7
0
变量求解:RMT函数

1. RMT函数:计算贷款每月付款额 = PMT (贷款利率,付款限期,本金) 2.单变量求解: 数据选项卡----> 模拟分析------>单变量求解:单变量求解前必须先执行PMT函数...

东方墨天
35分钟前
2
2
网络安全市场需求

最近,网络安全技能差距的热门话题流传开来。技能差距经常被紧急讨论,可以看出它在实践中的作用是很大的。但信息安全是一门广泛的学科,所以在谈论“技能差距”时需要更具体。有专家表示,真...

linuxCool
54分钟前
3
0
饿了么快应用初体验

作者:饿了么 顾诚 为什么我们选择了快应用 在很长一段时间里,原生饿了么应用对于新用户来说体验成本略高,对于迫切想要点餐的老用户操作有点繁琐;而 Web 版的饿了么应用在体验、速度、功能...

前端老手
57分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部