今天救援同事的PVE平台。公司内部测试平台,用淘汰的服务器搭的PVE集群,同事说在添加一台新服务器到集群的时候,突然登陆PVE管理平台的机器死机,导致整个PVE其他机器管理页面都登陆失败。
遇事不要慌,现在处理死机的机器虚拟机下线,其他服务器的虚拟机虽然网页不能管理,但是都是在线运行的。
虽然网页管理端是登陆失败,但是ssh也是可以管理的。
ssh 里面启动虚拟机
1 | qm start 118 |
提示cluster not ready - no quorum? (500)
按照网上的教程,我们先把机器脱离集群。
1、隔离节点上停止”pve-cluster”服务”
1 2 | systemctl stop pve-cluster.service systemctl stop corosync.service |
2、上一步执行成功后,执行将待隔离节点的集群文件系统设置为本地模式的命令
1 | pmxcfs -l |
3、上一步执行成功后,执行删除 corosync 配置文件的命令
1 2 | rm /etc/pve/corosync.conf rm -rf /etc/corosync/* |
4、前3步都执行成功后,执行重新启动集群文件系统服务的命令
1 2 | killall pmxcfs systemctl start pve-cluster.service |
现在我们可以查看集群状态,可以看到是只有自己的单节点。
1 | pvecm status |
现在可以登陆这台管理页面,可以管理本机的虚拟机,可以正常启动虚拟机,但是里面的其他服务器节点都提示hosts错误,图标显示问号,无法管理。
5、找一台正常的节点主机,ssh删除故障节点node文件
1 2 3 | cd /etc/pve/nodes ls rm -rf /etc/pve/nodes/pve2 #改成故障节点对应路径,比如这台pve2的服务器 |
这里会报错的,提示无法删除。
其实新版我们需要先删除锁。
1 2 | rm -rf /var/lock/pvecm.lock pvecm delnode pve2 #用内置命令删除pve2节点,这里要很久,耐心等待 |
如果顺利,这里其他机器的管理平台可以正常登陆了,机器也是可以管理的。
转载请注明:果果.IT » 集群PVE管理页无法登陆修复