GBase 8a数据库的gcware集群一致性管理层,是通过节点间的扫描,来判定节点状态的。当前是使用ssh服务,如果在指定时间内,没有连通目标节点,则会报cfg_connect_timeout的错误,并会判定目标节点处于离线状态。
目录导航
原因
节点服务访问,OFFLINE
corosync或gcware服务,在扫描某个节点服务时,在指定时间内没有成功,认定超时。在集群层,会设置该节点为OFFLINE状态。
该信息出现在v8版本的/var/log/corosync.log里或者V9版本的【安装目录】/gcware/log/gcware.log里。
节点服务CLOSE
节点服务,是通过连接5050、5258、5288等端口来实现检测的,如果超过参数值没有连接上,则判断服务CLOSE。
解决
根据报错原因,一般是
- 对面sshd或数据库库服务确实没有启动
- sshd连接数不够,参考 sshd连接数配置
- 网络不通或延迟高。网线不好,交换机问题等,丢包严重或延迟高。
- 对面CPU负荷高没有及时响应。一般是磁盘繁忙,比如iostat -xdc里的await超过100毫秒,且util长期100%繁忙。
- 防火墙拒绝连接等
该参数在某些版本,默认值是500,单位毫秒,新版本默认是5000。
如果是网络延迟问题,建议根据现场情况,适当调高参数。
V8是/etc/corosync/corosync.conf
V9是【安装目录】/gcware/config/gcware.conf
《南大通用GBase 8a集群常见报错ERROR [CLM ] port_scanning error sockfd:81 time:1(ms) cfg_connect_timeout:5000(ms) error》有2条评论
评论已关闭。