加载中
hive性能调优

limit限制调整 --因为使用limit语句时候,是先执行整个查询语句,然后再返回部分结果的 set hive.limit.optimize.enable=true; set hive.limit.row.max.size=10000; set hive.limit.optimiz...

2016/04/20 11:51
156
利用sqoop1.6对mysql和hive进行同步的问题

使用sqoop中遇到的问题汇总

2016/04/26 13:36
78
Hadoop2.6.3+Hive-1.2.1+mysql5.6.15 问题汇总

问题描述一: Caused by: java.sql.SQLException: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://192.168.64.11:3306/hive?characterEncoding=UTF-8, u...

2016/02/22 12:50
136
在Hive中读取Json格式数据

如果有时候遇到数据源是json的格式(比如直接读取mongoDB的数据), hive解析就要麻烦一点, 主要有以下2种方法: 1、将json以字符串的方式整个入Hive表,然后使用LATERAL VIEW json_tuple的方法(...

2016/06/21 16:03
197
Hive中压缩设置 和 Hive文件存储格式及使用

Hive中压缩设置 和 Hive文件存储格式及使用 (一)Hive文件存储格式 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需...

使用kylin踩过的坑

我的kylin.properties配置: ### SERVICE ### # Kylin server mode, valid value [all, query, job] kyin.server.mode=all # Optional information for the owner of kylin platform, it c...

2016/09/11 13:10
3K
安装配置和使用hue遇到的问题汇总

问题1: error: command 'gcc' failed with exit status 1 make[2]: *** [/opt/hue/desktop/core/build/pycrypto-2.6.1/egg.stamp] 错误 1 make[2]: Leaving directory `/opt/hue/desktop/c...

2016/03/25 17:58
3.2K
python通过thrift方式连接hive

hive安装完成后,如果只是本地使用,启用 nohup hive --service metastore & [hadoop@master1 usr]$ hive Logging initialized using configuration in file:/data/usr/hive/conf/hive-log...

2016/04/29 15:31
1K
浅谈开源大数据平台的演变

一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动...

2016/07/01 18:26
25
Hive中如何快速的复制一张分区表和数据

Hive中有时候会遇到复制表的需求,复制表指的是复制表结构和数据。 如果是针对非分区表,那很简单,可以使用CREATE TABLE new_table AS SELECT * FROM old_table; 那么如果是分区表呢? 首先...

2016/08/11 16:03
48
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网行业数据仓库、数据平台的用途: 整合公司所有业务数据,建立统一...

2016/07/01 18:32
67
大数据分析界的“神兽”Apache Kylin有多牛?

本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始...

2016/08/17 14:58
188
Apache Zeppelin Notebook和R的交互

介绍 这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且...

2016/09/27 18:03
82
从无到有、从小到大,今日头条大数据平台实践经历的那些坑

今日头条 (以下简称头条)成立于 2012 年,本文作者王烨在 2014 年加入,那时公司人员仅三百人。2014 年,对头条来说是很关键的阶段,当时 DAU 只有几百万的级别;到 2016 年,DAU 达到 78...

Apache Kylin在百度地图的实践

作者简介 王冬,百度地图数据智能组成员,北京理工大学计算机本硕毕业,2012加入Microstrategy,负责BI Server核心组件SQL Engine相关开发。并于2014年加入百度地图数据智能组,主要负责大数...

2016/09/11 11:01
145
大数据环境下该如何优雅地设计数据分层

0x00 前言 最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:…… 发个牢骚,搞大数据的也得建设数据仓库吧。...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部