加载中
HDFS的架构和设计要点

虽然本文已经比较旧远了,但是在很多方面还是有一定学习的价值,中文版译者为killme。 一、前提和设计目标 硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都...

2012/10/11 23:00
721
HDFS 原理、架构与特性介绍

本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制 1:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 ...

2013/08/11 02:04
4K
大数据集群高可用之 HDFS

大数据集群高可用之hdfs hdfs如何保证高可用 从上图中我们可以看到,启动的时候,主备选举是利用 zookeeper 来实现的, hdfs namenode节点上的 ZKFailoverController 进程, 主要负责控制主备...

2012/08/01 12:32
744
Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase

数据源格式如下: 20130512  1  -1  -1  13802  1  2013-05-12 07:26:22   20130512  1  -1  -1  13802  1  2013-05-12 11:18:24 我们期待的结果是数据直接从 hdfs 读取后 写入 hbase,没有 reduce 阶段,...

2013/05/14 03:22
3.6K
Flume NG 简介及配置实战

Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,...

2014/07/08 01:46
56.3K
Hadoop 多表 join:map side join 范例

在没有 pig 或者 hive 的环境下,直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情,MR中的join分为好几种,比如有最常见的 reduce side join,map side join,semi join 等。今天我们...

2013/03/06 03:11
9.2K
HBase 写优化之 BulkLoad 实现数据快速入库

1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成...

2013/12/25 00:16
10.1K
HBase 原理、设计与优化实践

1、HBase 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从...

Hive 中内部表与外部表的区别与创建方法

先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的...

2012/12/27 00:18
13.5K
如何用 Hadoop/Spark 构建七牛数据平台

数据平台在大部分公司都属于支撑性平台,做的不好立刻会被吐槽,这点和运维部门很像。所以在技术选型上优先考虑现成的工具,快速出成果,没必要去担心有技术负担。早期,我们走过弯路,认为没...

PySpark on Yarn 的 Python 环境与包依赖解决方式

1、问题 Spark on Yarn是将yarn作为ClusterManager的运行模式,Spark会将资源(container)的管理与协调统一交给yarn去处理。 Spark on Yarn分为client/cluster模式: 对于client模式,Spark...

Kylin 2.0 Spark Cubing 优化改进

Kylin 2.0 引入了Spark Cubing beta版本,本文主要介绍我是如何让 Spark Cubing 支持 启用Kerberos的HBase集群,再介绍下Spark Cubing的性能测试结果和适用场景。 Spark Cubing 简介 在简介S...

2012/08/28 18:49
526
基于 Hive 的文件格式:RCFile 简介及其应用

Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序...

2014/06/18 02:54
2.8K
Hive SQL 编译过程详解

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对...

2014/05/21 01:19
1K
Hive & Performance 学习笔记

注:本文来源于 Hortonworks 的 Adam Muise 在 July 23 2013 日的 Toronto Hadoop User Group 大会上的一次演讲, 本文只是稍作增删、整理,以备忘。 原文请见:http://www.slideshare.net/a...

2013/09/02 00:54
4.6K
用 Java 对 hbase 进行CRUD增删改查操作

本文以HBase 0.90.2为例,介绍如何在Windows系统,Eclipse IDE集成环境下,使用Java语言,进行HBase客户端编程,包含建立表、删除表、插入记录、删除记录、各种方式下的查询操作等。 1. 准备...

2012/11/29 00:06
1K
Hadoop 中利用 mapreduce 读写 mysql 数据

有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特...

2013/07/29 02:54
10.5K
Zookeeper 原理与实践

1、Zookeeper 的由来 在Hadoop生态系统中,许多项目的Logo都采用了动物,比如 Hadoop 和 Hive 采用了大象的形象,HBase 采用了海豚的形象,而从字面上来看 ZooKeeper 表示动物园管理员,所以...

2012/09/05 18:46
860
如何实现海量数据下有序漏斗秒查

近期易观公司举办了一个OLAP大赛,我们队伍非常荣幸地获得了第一名,成为本次比赛最大黑马。此篇文章主要分享一下我们是如何解决有序漏斗秒查问题的 比赛地址:2017易观OLAP算法大赛 参赛情况...

2013/03/30 01:25
2.6K

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部