介绍
HBase是一个列式数据库,有自己的一套查询语法,Hive做为数仓,使用HQL来查询,作为分析人员擅长使用SQL来分析数据,这样就有了使用SQL来查询HBase的需求,Hive on HBase作为一套成熟的方案,在hadoop生态圈使用比较广泛。hive通过HBaseStorageHandler这个模块来读取HBase的数据。
环境
Hadoop 版本:CDH 5.10
OS版本:CentOS release 6.7 (Final)
依赖
安装hive-hbase
yum install hive-hbase -y
确保存在如下jar
/usr/lib/hive/lib/zookeeper.jar;/usr/lib/hive/lib/hive-hbase-handler.jar/usr/lib/hive/lib/guava-.jar;/usr/lib/hive/lib/hbase-client.jar;/usr/lib/hive/lib/hbase-common.jar;/usr/lib/hive/lib/hbase-hadoop-compat.jar;/usr/lib/hive/lib/hbase-hadoop2-compat.jar;/usr/lib/hive/lib/hbase-protocol.jar;/usr/lib/hive/lib/hbase-server.jar;/usr/lib/hive/lib/htrace-core.jar;
设置hive配置
当你使用hive连接单节点hbase master的时候,直接在CLI指定hbase master即可:beeline -hiveconf hbase.master=HMaster:60000
当你使用hive连接HA模式的hbase master的时候,直接在CLI指定zookeeper地址即可:beeline -hiveconf hbase.zookeeper.quorum=zkaddress:2181 或者设置环境变量 export HIVE_OPTS="-hiveconf zookeeper_address:2181"
ps:每次输入这么多配置比较麻烦,也可以在配置文件中进行设置,下面二选一即可
1 拷贝hbase-site.xml
拷贝hbase的配置文件hbase-site.xml到/etc/hive/conf目录下即可
2 配置hive-site.xml
hbase.zookeeper.quorum zkaddress:2181
重启hive
/etc/init.d/hive-server2 restart
配置
查看hbase表结构
describe "xxx"
ps:只能看到列簇,并不能看到列,后面hive进行映射的时候,要注意
在hive中创建hbase映射表
CREATE EXTERNAL TABLE hbase_table_reg_profile(key String, age string,name String) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:age,info:name")TBLPROPERTIES("hbase.table.name" = "reg_profile", "hbase.mapred.output.outputtable" = "reg_profile");
测试
beeline登录测试
异常解决
ps:开始的时候始终出现这样的错误,经过排查,是由于连接hbase失败导致的,一种是单节点hbase连接不通,一种是连接多节点hbase master的zk地址没配置
注意事项
当你在hive中创建hive on hbase表之后,使用其他hive账户访问该表的时候,该hive账户必须在hbase表中有相关hbase表的访问权限。