Apache Kylin 是一个开源的、分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
产品结构逻辑如下表
+----------------------------------------------------------+
| BI Layer | Interactive | Reporting | Dashboard |
| OLAP Engine | Apache Kylin |
| Hadoop | Hive/HDFS/Kafka | MR/Spark | Hbase/Parquet |
|----------------------------------------------------------+
Kylin
在官网的下载链接中有多种版本,3.x 版本的软件包一般存在 cdh57/cdh60/hadoop3/hbase1x
四种后缀,这里简单说明一下几种后缀的区别。
后缀 | 说明 |
---|---|
-cdh57 | 适用于 CDH 5.7.x 版本 |
-cdh60 | 适用于 CDH 6.0.x 版本 |
-hadoop3 | 适用于 Hadoop 3.x 版本 |
-hbase1x | 适用于 Hadoop 2.x + Hbase 1.x 组合版本 |
环境
本文的基础环境如下表
产品 | 版本 | 理论可用范围 |
---|---|---|
Hadoop | 2.9.2 | 2.7.x ~ 2.9.x |
Hive | 2.3.9 | 2.3.x |
HBase | 1.3.5 | 1.3.x |
ZooKeeper | 3.4.14 | 理论上不挑版本 |
下载
因为 3.1.x 已经是旧版本,新版本包含了 bugfix,因此该版本已经归档,需要从归档站点下载
wget https://archive.apache.org/dist/kylin/apache-kylin-3.1.0/apache-kylin-3.1.0-bin-hbase1x.tar.gz
解压
sudo tar xf apache-kylin-3.1.0-bin-hbase1x.tar.gz -C /opt/
授权
sudo chown -R $USER:$USER /opt/apache-kylin-3.1.0-bin-hbase1x/
配置
先确保 Hive Hadoop HBase ZooKeeper 服务都已经正常启动并可用后,执行环境检查。
## 环境检查(看到全PASS即可)
$ cd /opt/apache-kylin-3.1.0-bin-hbase1x/
$ bin/check-env.sh
Retrieving hadoop conf dir...
...................................................[PASS]
KYLIN_HOME is set to /opt/apache-kylin-3.1.0-bin-hbase1x
Checking HBase
...................................................[PASS]
Checking hive
...................................................[PASS]
Checking hadoop shell
...................................................[PASS]
Checking hdfs working dir
...................................................[PASS]
Retrieving Spark dependency...
Optional dependency spark not found, if you need this; set SPARK_HOME, or run bin/download-spark.sh
...................................................[PASS]
Retrieving Flink dependency...
Optional dependency flink not found, if you need this; set FLINK_HOME, or run bin/download-flink.sh
...................................................[PASS]
Retrieving kafka dependency...
Couldn't find kafka home. If you want to enable streaming processing, Please set KAFKA_HOME to the path which contains kafka dependencies.
...................................................[PASS]
Spark Flink Kafka 三个组件为可选组件,不影响集群工作,可忽略,但是部分功能可能依赖这部分产品,根据需要部署可选组件即可。
启动
bin/kylin.sh start
启动后使用浏览器访问 http://172.16.16.231:7070/kylin
(IP地址根据实际域名或者机器地址修改)
登录用户:ADMIN
登录密码:KYLIN
常见问题
a) 如果在检测环境时报错 /opt/apache-kylin-3.1.0-bin-hbase1x/bin/check-port-availability.sh: line 30: netstat: command not found
这是因为脚本需要调用 netstat
来检测端口是否被占用
CentOS 7 及其衍生版本
执行命令安装
sudo yum install net-tools
即可;CentOS 8 及其衍生版本
修改脚本#30(行)将
netstat
换成ss
即可;
b) 如果在启动服务时报错 Apache Kylin Unable to find HBase common lib
这是因为 CLASSPATH 设置错误,需要手动执行命令。
export HBASE_CLASSPATH=$HBASE_HOME/lib/*
或者将其加入到 /etc/profile.d/hadoop.sh
中即可。
c) 如果在启动服务时报错 Failed to find metadata store by url: kylin_metadata@hbase
可尝试进入 zkCli.sh 中将 /hbase/table
表删除,然后重启 HBase 和 ZooKeeper,再尝试启动 Kylin。
附录
参考链接
本文由 柒 创作,采用 知识共享署名4.0
国际许可协议进行许可。
转载本站文章前请注明出处,文章作者保留所有权限。
最后编辑时间: 2022-12-13 19:18 PM