加载中
大数据环境下该如何优雅地设计数据分层

0x00 前言 最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:…… 发个牢骚,搞大数据的也得建设数据仓库吧。...

从无到有、从小到大,今日头条大数据平台实践经历的那些坑

今日头条 (以下简称头条)成立于 2012 年,本文作者王烨在 2014 年加入,那时公司人员仅三百人。2014 年,对头条来说是很关键的阶段,当时 DAU 只有几百万的级别;到 2016 年,DAU 达到 78...

Hive中压缩设置 和 Hive文件存储格式及使用

Hive中压缩设置 和 Hive文件存储格式及使用 (一)Hive文件存储格式 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需...

hadoop集群和hive数据迁移方案

最近公司要做hadoop集群和hive数据的迁移,如何在保证原有业务稳定运行的情况下完成所有数据的迁移,也是一个不容易的过程。我总结了一下流程,给其他hadoop集群和hive数仓的管理员做参考。 ...

2017/04/07 16:51
424
pyspark访问hive数据实战

之前我们部门在数据分析这边每天的日报都是直接使用hive脚本进行调用,随着APP用户行为和日志数据量的逐渐累积,跑每天的脚本运行需要花的时间越来越长,虽然进行了sql优化,但是上spark已经...

2017/03/09 12:05
1K
Hadoop的作业平台Zeus最完整介绍

【Zeus3简介】 Zeus3是一个完整的Hadoop的作业平台,是基于Zeus的一个二次开发项目,从Hadoop任务的调试运行到生产任务的周期调度,宙斯支持任务的整个生命周期从功能上来说,支持: Hadoop...

2017/02/23 17:51
66
hive运行报错running beyond virtual memory错误原因及解决办法

问题:在hive中运行应用,出现了running beyond virtual memory错误。提示如下: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual m...

2017/02/15 15:24
237
20个免费的大数据资源

大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘 我总是在证明这样一个论点,即数据无处不在——并且很多都是免费的。在开始大数据分析之前,公司不一...

2016/11/30 15:02
48
Hive中如何快速的复制一张分区表和数据

Hive中有时候会遇到复制表的需求,复制表指的是复制表结构和数据。 如果是针对非分区表,那很简单,可以使用CREATE TABLE new_table AS SELECT * FROM old_table; 那么如果是分区表呢? 首先...

2016/08/11 16:03
48
在Hive中读取Json格式数据

如果有时候遇到数据源是json的格式(比如直接读取mongoDB的数据), hive解析就要麻烦一点, 主要有以下2种方法: 1、将json以字符串的方式整个入Hive表,然后使用LATERAL VIEW json_tuple的方法(...

2016/06/21 16:03
197
python通过thrift方式连接hive

hive安装完成后,如果只是本地使用,启用 nohup hive --service metastore & [hadoop@master1 usr]$ hive Logging initialized using configuration in file:/data/usr/hive/conf/hive-log...

2016/04/29 15:31
1K
hive性能调优

limit限制调整 --因为使用limit语句时候,是先执行整个查询语句,然后再返回部分结果的 set hive.limit.optimize.enable=true; set hive.limit.row.max.size=10000; set hive.limit.optimiz...

2016/04/20 11:51
156
hue-3.7.0安装+ hadoop2.6.3目前使用的hue配置

脱离CDH来配置hue确实比较麻烦,现在只使用了hive和HDFS,其他组件之后会陆续添加。 1、安装依赖包(hue依赖的包实在太多,太部分安装编译过程的error都是缺少依赖包造成的,具体可google)...

2016/04/07 10:39
448

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部