南大通用自主研发的 GBase Cloud Data Warehouse(简称 GCDW)是一款基于列存储的海量分布式大规模并行处理的多实例弹性云数据仓库。适用于云上和云下环境,为用户提供海量数据的查询分析服务。本文介绍物理机和虚拟机上的使用。
月度归档: 2022年6月
南大通用GBase 8a针对group列唯一值多的延迟聚合优化参数
南大通用GBase 8a在做非Hash列的group时,默认策略是将各个节点的数据先在本地group后,再将结果发到临时表做二次聚合。此方案在聚合列唯一值少,聚合结果行数相比原始数据行数有明显降低时是非常适合的,但如果聚合结果没有降低,比如1000万行聚合后999万行,汇总到临时表后二次聚合,结果还是在999万行,则第一次的本地聚合就出现了资源浪费。GBase 8a提供了一个可选参数,通过延迟聚合来提升性能。
南大通用GBase 8a相同子查询多次使用的优化方法
在GBase 8a中,会将子查询保存到临时表里。 如果多个子查询是完全相同的,则会导致资源浪费。本文提供了CTE和参数共2个可行方案来优化这个场景。
南大通用GBase 8a在主副本都故障,且无法修复时的处理方案
南大通用GBase 8a是通过副本机制来提供高可用保障,但如果出现主副本数据均损坏且无法修复呢?按标准逻辑,有关的表将无法保障完整性,所有相关表查询将报错。本文提供一种在【允许数据丢失,查询结果不完整的前提下】,对现有表的剩余数据可以查询的方法,以及通过缩容,保证新建的表可以正常使用的方案,以及测试过程。
南大通用GBase 8a服务状态主动检测机制介绍
南大通用GBase 8a通过gcware集群维护集群状态,包括各个节点服务,数据一致性等。其中主动检查机制是gcware定时扫描各个节点,被动检查是同注册方式由各节点服务上报给gcware。本文介绍gcware主动检查机制。