GBase 8a 可以通过UDF扩展来访问操作系统级的资源,比如数据库所在目录剩余的空间。在V9版本里,提供了一个系统元数据表,而在V8里并没有自带这个功能。 本文介绍在支持python 的8.6.2.43版本里,通过UDF获得磁盘可用空间的一种方法。
目录导航
参考
GBase 8a V95通过SQL获得集群服务状态
GBase 8a一个CUDF样例
查询磁盘可用空间的python UDF代码
熟悉python的可以看到函数体本身就是一段标准的python程序。入口参数是磁盘目录,返回是可用空间(字节)
use gclusterdb;
drop function if exists get_os_diskinfo_free_bytes;
create function get_os_diskinfo_free_bytes(mountPath varchar(200))
returns varchar
$$
def get_os_diskinfo_free_bytes(mountPath):
try:
import os
stat=os.statvfs(mountPath)
return stat.f_bsize * stat.f_bavail
except:
return None
return get_os_diskinfo_free_bytes(mountPath)
$$ language plpythonu;
如何返回每个计算节点的可用空间
为了确保每个计算节点都能返回一行数据,需要构造一个表,让每隔分片都且只有1行数据。
init.sh
# 初始化建表脚本
gccli -uroot gclusterdb -vvv <<EOF
drop table if exists gclusterdb.alarm_one_row_per_node;
drop table if exists gclusterdb.data_node_info_tmp1;
drop table if exists gclusterdb.data_node_info_tmp2;
create table gclusterdb.alarm_one_row_per_node(node_ip varchar(20),distr_key int) distributed by('distr_key');
create table gclusterdb.data_node_info_tmp1(node_ip varchar(20),distr_key int) replicated;
create table gclusterdb.data_node_info_tmp2(node_ip varchar(20),distr_key int) distributed by('distr_key');
EOF
# 初始化数据
gcadmin |grep node|grep -v IpAddress|awk '{print $4}'|while read ip_add
do
gccli -uroot gclusterdb -vvv <<EOF
insert into data_node_info_tmp1(node_ip) values('$ip_add');
EOF
done
for((i=1;i<=20;i++))
do
gccli -uroot gclusterdb -vvv <<EOF
insert into data_node_info_tmp1 select * from data_node_info_tmp1;
EOF
done
gccli -uroot gclusterdb -vvv <<EOF
update data_node_info_tmp1 set distr_key=rowid;
insert into data_node_info_tmp2(node_ip,distr_key) select * from data_node_info_tmp1;
delete from data_node_info_tmp2 where rowid<>0;
EOF
gccli -uroot gclusterdb -N <<EOF |while read distr_key nodeid
select a.distr_key,b.nodeid+1 from data_node_info_tmp2 a inner join gclusterdb.nodedatamap b on crc32(distr_key)%65536=b.hashkey where b.data_distribution_id in(select max(data_distribution_id) from gclusterdb.nodedatamap);
EOF
do
host_ip=`gcadmin showdistribution |awk '{if($4=="'$nodeid'") print $2}'|head -1`
gccli -uroot gclusterdb -vvv <<EOF
update data_node_info_tmp2 set node_ip='$host_ip' where distr_key=$distr_key;
EOF
done
gccli -uroot gclusterdb -vvv <<EOF
insert into alarm_one_row_per_node(node_ip,distr_key) select * from data_node_info_tmp2;
drop table data_node_info_tmp1;
drop table data_node_info_tmp2;
EOF
查询生成的表
gbase> select * from gclusterdb.alarm_one_row_per_node;
+------------+-----------+
| node_ip | distr_key |
+------------+-----------+
| 10.0.2.201 | 0 |
| 10.0.2.202 | 2 |
+------------+-----------+
2 rows in set (Elapsed: 00:00:00.00)
使用样例
如下以/opt为样例,查询保存/opt所在磁盘分区的可用磁盘空间,单位是字节
gbase> select node_ip,gclusterdb.get_os_diskinfo_free_bytes('/opt') from gclusterdb.alarm_one_row_per_node;
+------------+-----------------------------------------------+
| node_ip | gclusterdb.get_os_diskinfo_free_bytes('/opt') |
+------------+-----------------------------------------------+
| 10.0.2.201 | 49581637632 |
| 10.0.2.202 | 49786064896 |
+------------+-----------------------------------------------+
2 rows in set (Elapsed: 00:00:00.22)
说明
python运行时占用的内存较高,请至少留下1G-2G的可用内存。另外不建议在高性能、频繁访问场景用python, 还是用C实现udf更好。