最新消息:走过的,离开的,已经错过,新开始2016

集群PVE管理页无法登陆修复

技术随笔 果果 39浏览 0评论

今天救援同事的PVE平台。公司内部测试平台,用淘汰的服务器搭的PVE集群,同事说在添加一台新服务器到集群的时候,突然登陆PVE管理平台的机器死机,导致整个PVE其他机器管理页面都登陆失败。
遇事不要慌,现在处理死机的机器虚拟机下线,其他服务器的虚拟机虽然网页不能管理,但是都是在线运行的。

虽然网页管理端是登陆失败,但是ssh也是可以管理的。
ssh 里面启动虚拟机

Www.GuoGuo.iT
1
qm start 118

提示cluster not ready - no quorum? (500)
按照网上的教程,我们先把机器脱离集群。
1、隔离节点上停止”pve-cluster”服务”

Www.GuoGuo.iT
1
2
systemctl stop pve-cluster.service
systemctl stop corosync.service

2、上一步执行成功后,执行将待隔离节点的集群文件系统设置为本地模式的命令

Www.GuoGuo.iT
1
pmxcfs  -l

3、上一步执行成功后,执行删除 corosync 配置文件的命令

Www.GuoGuo.iT
1
2
rm /etc/pve/corosync.conf
rm -rf /etc/corosync/*

4、前3步都执行成功后,执行重新启动集群文件系统服务的命令

Www.GuoGuo.iT
1
2
killall pmxcfs
systemctl start pve-cluster.service

现在我们可以查看集群状态,可以看到是只有自己的单节点。

Www.GuoGuo.iT
1
pvecm status

现在可以登陆这台管理页面,可以管理本机的虚拟机,可以正常启动虚拟机,但是里面的其他服务器节点都提示hosts错误,图标显示问号,无法管理。
5、找一台正常的节点主机,ssh删除故障节点node文件

Www.GuoGuo.iT
1
2
3
cd /etc/pve/nodes
ls
rm -rf /etc/pve/nodes/pve2   #改成故障节点对应路径,比如这台pve2的服务器

这里会报错的,提示无法删除。
其实新版我们需要先删除锁。

Www.GuoGuo.iT
1
2
rm -rf /var/lock/pvecm.lock
pvecm delnode pve2      #用内置命令删除pve2节点,这里要很久,耐心等待

如果顺利,这里其他机器的管理平台可以正常登陆了,机器也是可以管理的。

转载请注明:果果.IT » 集群PVE管理页无法登陆修复

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址