GBase 8a数据库的数据入库方式,从85版本的加载服务器dispserver + dispcli的客户端方式,改成了通过SQL语句+数据源(ftp,sftp,http,hdoop)方式。其中的参数,也从老版本的配置文件方式,改成了数据库参数方式。绝大部分都支持sesssion设置,以便每次加载进行一些资源调整。
常用的参数如下:
gcluster_loader_max_data_processors | 管理 | 一次加载任务使用的最大加载机个数,默认值16 |
gcluster_load_rebalance_seed | 管理 | 平衡加载节点任务数量,避免个别加载机负担太多任务导致瓶颈,默认5 |
gcluster_loader_min_chunk_size | 管理 | 数据文件最小分块粒度,默认67108864 |
gbase_loader_check_charse | 数据 | 用于设置是否打开字符集检查功能 |
gbase_loader_parallel_degree | 数据 | 加载 SQL 执行的并行度(并行线程数),默认值是 0(线程池最大可用资源数)。 |
gbase_loader_read_timeout | 数据 | 用于指定读取 FTP/HTTP/SFTP 文件的超时时间 |
gbase_loader_max_line_length | 数据 | 数据源单行最大长度。默认4M |
gbase_loader_buffer_count | 数据 | 用于控制加载占用内存数量。 |
目录导航
加载机数量gcluster_loader_max_data_processors
一次加载任务使用的最大加载机个数(参与数据解析处理的最大节点数),默认值16。这些加载机将同时从数据源处理原始数据。
如果节点多,数据量大,则可以调高此参数,让更多的节点参与数据处理。
gcluster_load_rebalance_seed
表示不同data节点上的加载任务数最大差值大于等于参数值时会启动node加载任务负载均衡,默认值为5。如果取得更好的均衡效果,可以将参数gcluster_load_rebalance_seed设置为2或者1。
集群每个加载任务会随机选取不超过gcluster_loader_max_data_processors个data节点作为加载机。在gcluster_load_rebalance_seed 取默认值5的情况下,如果并发了5加载任务,都随机选取第10个节点作为加载机。此时第10个data节点上load任务数为5,同时也存在部分节点上load任务数为0,data节点间最大任务数之差为5。当第6个加载下发时,根据gcluster_load_rebalance_seed参数条件,不再选取第10个节点作为加载机,而是选取加载任务差值小于5的节点作为加载机。
分块大小 gcluster_loader_min_chunk_size
数据文件最小分块粒度,单位是字节。如低于此大小,将按行拆分。
单位为字节,默认值67108864(64M)最大值是4294967295 (4G)。
数据节点加载并行度gbase_loader_parallel_degree
这个参数用于设置控制加载 SQL 执行的并行度(并行线程数),设置 gbase_parallel_degree 参数对加载不再有效。
取值范围0- 1024,默认值为0,采用线程池最大可用资源数。
数据节点加载检查字符集gbase_loader_check_charset
用于设置是否打开字符集检查功能,该参数仅对加载有效,对其他 SQL 无影响。对字符型列( char, varchar, text),在数据校验阶段增加字符集检查,如果不匹配则产生错误数据,1 为校验 0 为不校验,默认为0。
数据节点加载读取超时设置gbase_loader_read_timeout
用于指定读取 FTP/HTTP/SFTP 文件的超时时间,如果填充一个数据块(8M)的时间超过此参数值,加载任务将报错停止。0 表示永不超时。
取值范围 0- 4294967295,单位:秒,默认300。
数据节点加载单行最大长度gbase_loader_max_line_length
用于设置源文件中一行数据的最大长度,超过此长度,加载任务将报错停止。
取值范围4194304 - 9223372036854775807 (LONG_MAX),单位:字节,默认4M。
数据节点加载控制占用内存gbase_loader_buffer_count
用于控制加载占用内存数量,新增参数 gbase_loader_buffer_count,用于指定加载过程中分配的读缓冲内存块数量(单块内存固定大小为 8M)。
取值范围2-128,默认值16。
参数说明:用于指定加载过程中分配的读缓冲内存块数量,其中单块内存固定大小为8M,每个加载任务单个节点占用的读缓冲内存为 8M*gbase_loader_buffer_count。
完整的LOAD语法,请参考 GBase 8a 集群加载数据LOAD的方法
其它和加载相关的内容,请参考
《南大通用GBase 8a集群86/95版本加载相关参数》有2条评论
评论已关闭。