GlusterFS运行一段时间后, 出现 Peer Rejected 错误,经过摸索进行了恢复。
现象:
sudo gluster peer status
Number of Peers: 2
Hostname: 192.168.199.249
Uuid: 2cfd2767-6454-4538-ab57-1abe91a570ff
State: Peer in Cluster (Connected)
Hostname: 192.168.199.173
Uuid: 35f0af2e-6fe2-4eb4-9ecb-d9e147460cf1
State: Peer Rejected (Connected)
显示peer节点虽然连接但是无法访问。
诊断:
一般是网络连通但是ID不同引起,如该节点重新安装了glusterfs导致uuid不同,其它节点就拒绝访问。
问题:
Peer Rejected 是 peer 运行中可能出现的一种状态。
当运行 'gluster peer status' 出现该状态,该节点的 volume configuration将会不再同步更新,因为该结点已经被排除到集群之外。
步骤:
在rejected peer上:
- 停止 glusterd
- sudo systemctl stop glusterd
- 在目录/var/lib/glusterd, 删除所有文件,除了 glusterd.info (是 UUID 文件)
- Start glusterd
- sudo systemctl start glusterd
- 添加好的 peers
- sudo gluster peer probe 192.168.199.180
- 重启 glusterd, 检查状态 'gluster peer status'
- 也许需要重启多次。
- 如果还不行:
- 删除glusterfs-server,重新安装。
- 到集群中删除该节点。
- 重新添加该结点到集群中。
我的GlusterFS节点使用上面的步骤后,恢复正常。