文档章节

Apache Kylin 安装使用问题

AlexPeng
 AlexPeng
发布于 2017/08/22 17:12
字数 1065
阅读 60
收藏 1
点赞 0
评论 0

环境:

hbase 单独集群版本:1.0.0-cdh5.5.1 , 对应的hadoop版本:2.6.0-cdh5.5.1

hadoop 版本: 2.6.0-cdh5.9.0

hive 版本:1.1.0-cdh5.9.0

hcatlog 版本: 1.1.0+cdh5.9.0

kylin 版本: apache-kylin-2.0.0-bin-cdh57.tar.gz

 

1.  启动不了

    在kylin.out中看到 hadoop.tmp.dir 这个目录没有权限,导致启动不了, 原因是我之前用的root 用户启动一次kylin,后来切换用户导致的,赋权限就好。

 

2. hbase单独集群配置(最严重的一个问题)

    kylin中 kylin.storage.hbase.cluster-fs 这个配置未配置,虽然可以运行kylin,但是是个天坑,将公司80台hbase单独服务集群弄挂了,这里的原因没有细究,需要去问问kylin的大神。(推测可能是hbase客户端配置直接用zk的配置的,在请求的时候一台一台hbase机器地址获取写入数据,因为数据量比较大导致单台机器承受不住,最终一台一台机器弄挂)

    配置上面的参数,就必须要配置hbase的 kylin.storage.hbase.cluster-hdfs-config-file这个属性,指定hbase集群中hdfs的配置文件。

 

3.  hbase 版本问题

    由于官网提供的编译完成的二进制对应的版本有限,遇到的问题: 

    https://www.oschina.net/question/144320_2263656

    最终解决方法,请自行去官网下载2.0版本源码,根据自己的hbase版本编译打包。

    这个问题一般在查询阶段才会遇到。

 

4. cube第一步报错,内容如下:

java.lang.NullPointerException
	at org.apache.kylin.source.hive.CreateFlatHiveTableStep.getCubeSpecificConfig(CreateFlatHiveTableStep.java:100)
	at org.apache.kylin.source.hive.CreateFlatHiveTableStep.doWork(CreateFlatHiveTableStep.java:105)
	at org.apache.kylin.job.execution.AbstractExecutable.execute(AbstractExecutable.java:113)
	at org.apache.kylin.job.execution.DefaultChainedExecutable.doWork(DefaultChainedExecutable.java:57)
	at org.apache.kylin.job.execution.AbstractExecutable.execute(AbstractExecutable.java:113)
	at org.apache.kylin.job.impl.threadpool.DefaultScheduler$JobRunner.run(DefaultScheduler.java:136)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
	at java.lang.Thread.run(Thread.java:745)

    网上说是 metadata 数据加载失败, 可以去在系统中reload metadata下就好。

    但中间遇到过好几次这样的问题,有时可以解决,有时候很顽皮, 具体原因不清楚。

    使用中发现,cube对应的model中的事实表,也即从hive 数据源中导入到kylin中的需要计算的表在完成Sync操作后,会发出一个job任务(做什么暂时不清楚,猜测是抽取表对应的文件),当这个任务执行不成功时第一步也会遇到这个问题。请确保该任务执行成功。

 

5. 执行计算的时候发生MR倾斜

    第一是字段维度设计有问题,请自行检查

    第二就是重新手动按自己的方式对kylin计算的hive中间表做数据切分,关闭自动文件合并的功能。

set mapreduce.job.reduces=500;

set hive.merge.mapredfiles=false;

INSERT OVERWRITE TABLE kylin_intermediate_track_view_cube_1ae062d7_1490_4ece_a1b8_2c3358f5fdd9 SELECT * FROM kylin_intermediate_track_view_cube_1ae062d7_1490_4ece_a1b8_2c3358f5fdd9 DISTRIBUTE BY RAND();

    设置reduce的计算个数,及重新切分表中的文件!上面的参数在cube执行中会打印出来, 后续自行copy按照表的数据量和集群资源,自行切分并安排合理的reduce的个数。

 

6. 权限问题

    如果你是单独hbase集群请保证运行的用户,在两边hdfs上对应目录的权限相同,且可自行赋权,我这边遇到的问题是,hbase集群hdfs上的目录是/user/kylin目录,kylin用户对当前目录是可以操作的,但当赋权操作时失败,问题是/user目录是root用户且是700权限,导致下面/user/kylin目录下面的文件当前用户不能自己赋权, 修改/user目录的权限为755 解决当前用户不能自行赋权的问题。

    

使用总结:

    1. 不支持原始数据明细查询

    2. 单维度数据21亿限制

    3. 查询限制于cube的设计,不是太灵活。

    4. 查询分组等计算的速度很快,大部分在1秒内。

    5. 分区时间字段格式支持有限。

    6. cube计算维度的膨胀,需要对业务精确分析,对维度组合进行剪枝。

    7. 跨segment的查询会比较慢。

    

参考: 

http://www.guardian.cool/2016/11/HBase%E7%8B%AC%E7%AB%8B%E9%9B%86%E7%BE%A4%E7%9A%84Kylin%E6%90%AD%E5%BB%BA%E9%97%AE%E9%A2%98%E8%AE%B0%E5%BD%95/

   

    

    

 

 

 

 

© 著作权归作者所有

共有 人打赏支持
AlexPeng
粉丝 14
博文 22
码字总数 12131
作品 0
普陀
高级程序员
(转)给大数据分析师的一双大礼:Apache Kylin和Superset

$ pip install superset# 创建初始超级用户: admin/admin$ fabmanager create-admin --app superset --username admin --password admin --firstname admin --lastname admin --email admin@......

seapeak007 ⋅ 05/08 ⋅ 0

降低开放式创新的壁垒 | 赢在 Apache系列之一

序 精英制、慈善机构、纯粹的个人志愿者、至今仍然是一个虚拟组织、拥有超过 350 个开源项目、有 3255 个提交者为 Apache 的项目做出了贡献...... Apache 的项目支撑了大半个互联网,Hadoop ...

开源社 ⋅ 06/08 ⋅ 0

cdh5.14.2中集成安装kylin与使用测试

cdh5.14.2中集成安装kylin与使用测试 标签(空格分隔): 大数据平台构建 一:kylin 简介 二:在cdh5.14.2 上面配置安装kylin 2.1: kylin 安装的环境配置 2.2:kylin的启动验证 三:kylin 运行...

flyfish225 ⋅ 06/11 ⋅ 0

Apache Kylin在链家GAIA大数据平台中的实践

Apache Kylin在链家GAIA大数据平台中的实践 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) React 入门实战(干货) 构建中小型互联...

qq_27384769 ⋅ 05/10 ⋅ 0

【案例分享】大数据多维分析引擎在魅族的实践

Apache Kylin是首个完全由中国团队设计开发,并贡献到Apache软件基金会(ASF)的顶级项目,开源一年左右的时间,已经在国内国际多个公司被采用作为大数据分析平台的关键组成部分,拥有大量用户...

qq_41893518 ⋅ 04/20 ⋅ 0

Apache Kylin在美团数十亿数据OLAP场景下的实践

美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据进行分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要...

Kyligence ⋅ 2017/11/07 ⋅ 0

Failed to find metadata store by url: kylin_metadata@hbas

2018-05-28 18:12:26,008 INFO [main] zookeeper.ZooKeeper:100 : Client environment:java.library.path=/eyas/hbase/lib/native/Linux-amd64-64:/eyas/hadoop/lib:/eyas/hbase/lib/native/......

崔笑星 ⋅ 05/28 ⋅ 0

标准数据生成器 - data-generator

数据生成器 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse等不同实现方案之间的表现,那你...

杨尚川 ⋅ 04/30 ⋅ 0

杨尚川/data-generator

数据生成器 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse等不同实现方案之间的表现,那你...

杨尚川 ⋅ 04/29 ⋅ 0

Apache Kylin 维度优化指南

为什么需要维度优化 因为如果不进行任何维度优化,直接将所有的维度放在一个聚集组里,Kylin就会计算所有的维度组合(cuboid)。 比如,有12个维度,Kylin就会计算2的12次方即4096个cuboid,...

lilychen1983 ⋅ 05/23 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 8分钟前 ⋅ 0

CentOS开机启动subversion

建立自启动脚本: vim /etc/init.d/subversion 输入如下内容: #!/bin/bash## subversion startup script for the server## chkconfig: 2345 90 10# description: start the subve......

随风而飘 ⋅ 12分钟前 ⋅ 0

Nginx + uwsgi @ubuntu

uwsgi 安装 sudo apt-get install python3-pip # 注意 ubuntu python3默认没有安装pippython3 -m pip install uwsgi 代码(test.py) def application(env, start_response): start_res......

袁祾 ⋅ 13分钟前 ⋅ 0

版本控制工具

CSV , SVN , GIT ,VSS

颖伙虫 ⋅ 15分钟前 ⋅ 0

【2018.06.19学习笔记】【linux高级知识 13.1-13.3】

13.1 设置更改root密码 13.2 连接mysql 13.3 mysql常用命令

lgsxp ⋅ 23分钟前 ⋅ 0

LVM

LVM: 硬盘划分分区成物理卷->物理卷组成卷组->卷组划分逻辑分区。 1.磁盘分区: fdisk /dev/sdb 划分几个主分区 输入t更改每个分区类型为8e(LVM) 使用partprobe生成分区的文件:如/dev/sd...

ZHENG-JY ⋅ 51分钟前 ⋅ 0

彻底删除Microsoft Office的方法

参照此链接彻底删除Office https://support.office.com/zh-cn/article/%e4%bb%8e-pc-%e5%8d%b8%e8%bd%bd-office-9dd49b83-264a-477a-8fcc-2fdf5dbf61d8?ui=zh-CN&rs=zh-CN&ad=CN......

Kampfer ⋅ 今天 ⋅ 0

大盘与个股之间关系

大盘走多:积极出手 顺势加码 大盘走空: 少量出手 退场观望 大盘做头:逆势减码 少量操作 大盘做底 : 小量建仓 小量试单

guozenhua ⋅ 今天 ⋅ 0

Day16 LVM(逻辑卷管理)与磁盘故障小案例

lvm详解 简述 LVM的产生是因为传统的分区一旦分区好后就无法在线扩充空间,也存在一些工具能实现在线扩充空间但是还是会面临数据损坏的风险;传统的分区当分区空间不足时,一般的解决办法是再...

杉下 ⋅ 今天 ⋅ 0

rsync实现多台linux服务器的文件同步

一、首先安装rsync,怎样安装都行,rpm,yum,还是你用源码安装都可以。因为我用的是阿里云的ESC,yum install rsync就ok了。 二、配置rsync服务 1.先建立个同步数据的帐号 123 groupadd r...

在下头真的很硬 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部