GBase 8a现有版本,还是采用操作系统的ssh来检测某个节点是否在线。如果超过了参数设置的timeout值,则会设节点为offline状态。
目录导航
常见原因
节点物理离线
比如网线被拔掉,断电等。
节点死机
一般现象是ping还能通,但ssh无法连接上去,或者需要很久。
操作系统繁忙
包括CPU, 磁盘等,也包括网络。只要在timeout参数内,没有正常返回,就会被认定offline。 当然网络堵塞,不稳定也算在【繁忙】范畴里。
该参数是gcware层的cfg_connect_timeout。详情请参考
解决方案
如果是网络不稳定,可以提高容忍度参数。 很老的版本是默认500毫秒。之后的都是5000毫秒。如果一个ssh在5秒内都无法联通,确实网路或环境不可靠。
可以通过
time ssh XX.XX.XX.XX date
来不断监控连接耗时。同时如前面参考文章,可以在日志里看到超时的报错信息。