某项目共20个节点的GBase 8a 9.5.3版本集群,发生2台服务器硬件故障,其中1台纯数据数据节点,另一台是管理gcware+调度coordinator+数据计算服务gnode的复合节点,本文记录整个操作过程。
标签: 节点替换
GBase 8a MPP数据库集群和节点替换有关的函数、功能使用经验分享和问题处理
南大通用GBase 8a通过扩容的方式达到节点替换的目的
南大通用GBase 8a支持节点替换,当某些服务器出现不可恢复的故障时,比如磁盘损坏,可以在修复后替换,或者用新节点做节点替换。在V8版本里,默认节点替换必须用老的IP,在V95版本的多VC模式,支持了集群空闲的备用节点freenode节点替换模式。本文介绍一种通过扩容的方式,采用新节点做数据计算节点替换的方案。
南大通用GBase 8a扩容时从新策略distribution回退到老策略的方案
南大通用GBase 8a在扩容时,需要指定新的分布策略distribution,然后做数据重分布操作。如果重分布已经开始,发现策略搞错了,希望回退,可以参考本文介绍的方法。
南大通用GBase 8a在V95版本做节点替换报错single vc mode does not support '--freenode'
南大通用GBase 8a的V95版本,支持通过空闲节点(freenode)做快速的故障节点替换(省去了找安装包,检查安装配置过程),但freenode只针对开启了VC的场景,对于单VC,也就是兼容V8版本的模式,是不支持freenode的,也就不支持这种节点替换方式。解决方法就是用全新节点的方案。
南大通用GBase 8a节点替换报错gcadmin replace nodes failed:check table number failed after drop temporary db
南大通用GBase 8a做节点替换操作后,包含调度服务gclusterd时,会检查新节点的表数量和其它节点是一样。读取的是information_schema.tables,如果不可读或者不一样,则会报错check table number failed after drop temporary db。
南大通用GBase 设置集群状态unavaliable时报错CheckDataValidByFevent table segment have not valid node on cluster
南大通用GBase 8a在集群节点出现不可恢复故障时,比如磁盘损坏,文件系统故障且不可修复等,需要重建文件系统或更换新的服务器时,需要做节点替换操作(replace),而在替换之前,需要设置该节点不可用(unavaliable),期间会检查就请你event情况,比如数据一致性。如果出现某些表的主备分片都被设置为1,不一致状态,则会出现报错 ERROR:CheckDataValidByFevent table (表名) segment [分片号】 have not valid node on cluster
南大通用GBase 8a做节点替换全新节点时报Fail to get free disk fail to login errno -1 gbase Permission denied.
南大通用GBase 8a数据库集群支持故障损坏节点的替换操作,但要求在新节点操作系统要存在dbaUser(一般是gbase用户),如果不存在,则在进行检查时,使用dbaUser无法连接导致报错。
南大通用GBase 8a执行节点替换replace报错current gcware version and package gcware version are not same
南大通用GBase 8a在做节点替换replace时,会检测安装版本和当前集群版本是否一致,如果不同会报如下类似错误:current gcware version (107816) and package gcware version (92755) are not same.解决方法就是采用和当前集群相同的版本进行节点替换。
南大通用GBase 8a V8版本节点替换期间通过并发数控制资源使用减少对系统影响的方法
在节点替换期间,需要从备份节点读取并传输大量数据,必然会对现有系统造成影响。在V9版本里是通过重分布的方式实现… 继续阅读 南大通用GBase 8a V8版本节点替换期间通过并发数控制资源使用减少对系统影响的方法
南大通用GBase 8a V95版本节点替换操作手顺
南大通用GBase 8a V95版本更改了节点步骤方式,采用重分布的方案以便用户能自主控制系统资源使用。本文模拟了一个3节点集群的故障,并恢复的全过程。