加载中
《前言 :一个典型的大数据平台架构》

上学的时候老师一直将,好记性不如赖笔头。工作4年半,4年大数据工作经验,一直都是林林总总的写些文章,没有一个体系化的梳理。在进入第5年之前,把大数据相关的知识和经验做一个梳理,也是...

Hive Transaction 事务性 小试

提到Hive一般都会想到,Hive是数据仓库,支持类SQL查询,有很多语法支持,可以嵌套MR,写Transform、写UDF/UDAF等,但是,不支持更新操作。所以Hive的常见也一般都是一次写入,频繁读取。从H...

2016/07/14 18:28
9.6K
opentsdb 分布式时间序列数据库安装实践

opentsdb是一个分布式、易扩展的分布式时间序列数据库。基于HBase做存储,一方面使其能支持海量的数据,一方面也非常容易扩展。主要用于一些服务的监控,比如性能等等。本文主要介绍安装部署...

2016/07/06 11:14
1K
第一章《数据之路,始于Hadoop》第一节 Hadoop 基础介绍

大数据时代最重要的论文是Google三篇,分布讲述了GFS、MapReduce和BigTable。而依照前两篇论文设计的开源项目Hadoop,则迅速风靡,成为了大数据行业的事实标准。...

kafka-manager 的编译和使用(附安装包)

kafka-manager是一个kafka的web管理界面,普遍反应比kafka-web-console好用。使用其实很简单,本文的重点是附安装包四个字。

Hive 数据导入HBase的2种方法详解

Hive数据导入到HBase基本有2个方案: 1、HBase中建表,然后Hive中建一个外部表,这样当Hive中写入数据后,HBase中也会同时更新 2、MapReduce读取Hive数据,然后写入(API或者Bulkload)到HBa...

Apache Sentry 第一弹:Server启动、连接Hue、分组详解

关于sentry的配置,启动,连接hue,以及中间遇到的坑(分组、数据库)

统计 YARN 提交任务的Hostname 分布

做集群规划的时候,有一点非常必要的就是一定要知道都是哪些机器在向yarn提交任务,这样如果需要做配置上的调整,可以进行统计调整。另外也可以很清楚的知道是哪些业务在使用hadoop 计算数据...

2015/07/06 17:44
94
hadoop streaming -archives 解压jar、zip、tar.gz的验证

hadoop streaming中可以使用 -archives 上传压缩文件,hadoop会自动解压,供MR中使用。

Centos 安装Hue

centos 部署hue,httpfs、hive、hbase配置参考

2015/06/11 23:36
1K
【转】hive数据倾斜总结

hive数据倾斜总结

2014/06/19 10:42
181
Pig 读书笔记 + 工作总结(干货很多)

个人的Pig使用总结,参考了Hadoop权威指南,Programming Pig 和工作中的使用和遇到的问题的总结,重点注意的文中有字号和颜色的标注。持续更新,干货很多。

2014/05/19 12:51
2.3K
Python 简单的统计基类,同名变量和字符串的使用

Python 简单的统计基类,同名变量和字符串的使用,eval和exec

mysql load 主键验证

mysql load时如果字段不是主键,会不停增加;如果字段是主键,会skip

2014/05/14 00:04
127
hive UDF 分享 通过IP地址获取 IDC/省份/城市

hive UDF 分享 通过IP地址获取IDC//省份/城市的信息

hive 常用小技巧

平常用的一些东西,懒得整理了,先这么着吧、

2014/05/12 19:30
2.4K
PIG 中COGROUP中的空值验证

PIG 中COGROUP的使用要小心空值,虽然从验证结果上看不会使数据量放大M*N倍,但是空值和NULL值总不是好东西,要警惕下。

2014/05/10 23:47
166
【转】python 调试工具 pdb的使用

python 调试工具 pdb的使用介绍

2014/04/28 15:54
200
【转】Hadoop源码浅析——Job提交相关

原文地址:http://blog.csdn.net/andyelvis/article/details/7706205 Configuration类是用来访问hadoop的配置参数的。 Configuration类首先会通过静态代码段加载hadoop的配置文件core-defaul...

2014/03/11 19:25
177
关于开源项目《Scavenger》

开源项目《Scavenger》简介。 Scavenge中文名清道夫,名字就是来源于清道夫鱼。负责Hadoop集群中Job的监控,清洗和报告。

没有更多内容

加载失败,请刷新页面

返回顶部
顶部