南大通用GBase 8a集群86/95版本加载相关参数

GBase 8a数据库的数据入库方式,从85版本的加载服务器dispserver + dispcli的客户端方式,改成了通过SQL语句+数据源(ftp,sftp,http,hdoop)方式。其中的参数,也从老版本的配置文件方式,改成了数据库参数方式。绝大部分都支持sesssion设置,以便每次加载进行一些资源调整。

常用的参数如下:

gcluster_loader_max_data_processors管理一次加载任务使用的最大加载机个数,默认值16
gcluster_load_rebalance_seed管理平衡加载节点任务数量,避免个别加载机负担太多任务导致瓶颈,默认5
gcluster_loader_min_chunk_size管理数据文件最小分块粒度,默认67108864
gbase_loader_check_charse数据用于设置是否打开字符集检查功能
gbase_loader_parallel_degree数据加载 SQL 执行的并行度(并行线程数),默认值是 0(线程池最大可用资源数)。
gbase_loader_read_timeout数据用于指定读取 FTP/HTTP/SFTP 文件的超时时间
gbase_loader_max_line_length数据数据源单行最大长度。默认4M
gbase_loader_buffer_count数据用于控制加载占用内存数量。

加载机数量gcluster_loader_max_data_processors

一次加载任务使用的最大加载机个数(参与数据解析处理的最大节点数),默认值16。这些加载机将同时从数据源处理原始数据。

如果节点多,数据量大,则可以调高此参数,让更多的节点参与数据处理。

gcluster_load_rebalance_seed

表示不同data节点上的加载任务数最大差值大于等于参数值时会启动node加载任务负载均衡,默认值为5。如果取得更好的均衡效果,可以将参数gcluster_load_rebalance_seed设置为2或者1。

集群每个加载任务会随机选取不超过gcluster_loader_max_data_processors个data节点作为加载机。在gcluster_load_rebalance_seed 取默认值5的情况下,如果并发了5加载任务,都随机选取第10个节点作为加载机。此时第10个data节点上load任务数为5,同时也存在部分节点上load任务数为0,data节点间最大任务数之差为5。当第6个加载下发时,根据gcluster_load_rebalance_seed参数条件,不再选取第10个节点作为加载机,而是选取加载任务差值小于5的节点作为加载机。

分块大小 gcluster_loader_min_chunk_size

数据文件最小分块粒度,单位是字节。如低于此大小,将按行拆分。

单位为字节,默认值67108864(64M)最大值是4294967295 (4G)。

数据节点加载并行度gbase_loader_parallel_degree

这个参数用于设置控制加载 SQL 执行的并行度(并行线程数),设置 gbase_parallel_degree 参数对加载不再有效。

取值范围0- 1024,默认值为0,采用线程池最大可用资源数。

数据节点加载检查字符集gbase_loader_check_charset

用于设置是否打开字符集检查功能,该参数仅对加载有效,对其他 SQL 无影响。对字符型列( char, varchar, text),在数据校验阶段增加字符集检查,如果不匹配则产生错误数据,1 为校验 0 为不校验,默认为0。

数据节点加载读取超时设置gbase_loader_read_timeout

用于指定读取 FTP/HTTP/SFTP 文件的超时时间,如果填充一个数据块(8M)的时间超过此参数值,加载任务将报错停止。0 表示永不超时。

取值范围 0- 4294967295,单位:秒,默认300。

数据节点加载单行最大长度gbase_loader_max_line_length

用于设置源文件中一行数据的最大长度,超过此长度,加载任务将报错停止。

取值范围4194304 - 9223372036854775807 (LONG_MAX),单位:字节,默认4M。

数据节点加载控制占用内存gbase_loader_buffer_count

用于控制加载占用内存数量,新增参数 gbase_loader_buffer_count,用于指定加载过程中分配的读缓冲内存块数量(单块内存固定大小为 8M)。

取值范围2-128,默认值16。  

参数说明:用于指定加载过程中分配的读缓冲内存块数量,其中单块内存固定大小为8M,每个加载任务单个节点占用的读缓冲内存为 8M*gbase_loader_buffer_count。

完整的LOAD语法,请参考 GBase 8a 集群加载数据LOAD的方法

其它和加载相关的内容,请参考

http://www.gbase8.cn/?paged=3&tag=%E5%8A%A0%E8%BD%BD

南大通用GBase 8a集群86/95版本加载相关参数》有2条评论

评论已关闭。