加载中
关于hadoop2.7.4中配置文件的问题

网上很多的关于hadoop的配置都很老了,一些文件对应的文件路径都已经发生了变化,而且有些文件还有缺失。我近期遇到的一个就是, mapred-site.xml文件找不到。 其实在/etc/hadoop/ 文件夹下面...

2017/10/19 11:02
18
深入理解HBase的设计原理

可以说Google根据GFS设计出来的BigTable模型奠定了现阶段大数据应用的存储基础,同样的业界使用最多的HBase是基于HDFS设计出来类似于BigTable的分布式存储系统。理解HBase的设计原理,将对实...

2017/08/22 01:35
127
MapReduce排序过程

Hadoop、Spark等分布式数据处理框架在宣传自己的性能时大都以排序效果来做比较,各种类别的Sort Benchmark已成为行业基准测试。之所以选择排序是因为排序的核心是shuffle操作,数据的传输会横...

2017/04/29 11:12
62
聊聊MapReduce处理过程中的数据类型与数据格式

MapReduce处理过程总览 对于MP的处理过程我想大部分人都已经知道了其原理,思路不难,这是肯定的,但是整个过程中需要考虑的细枝末节的点还挺多的,MP的输入输出格式就是其中的一点,那本文就...

2017/03/26 01:35
180
MapReduce输入分片详解

先看一下这张图 在进行map计算之前,map会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片...

2017/03/23 22:23
285
系统吞吐量TPS、用户并发量、性能测试概念和公式

这篇文章主要是介绍一些系统性能的概念以及测量公式

2017/03/21 22:08
59
如何由浅入深学习hadoop

这篇文章是阿里封神讲述如何学习hadoop的文章,这里转过来同大家一同分享一下,也欢迎大家广泛传播,帮助到更多乐于学习的朋友。

2017/03/13 10:07
46
编写自己的第一个Hadoop实例

之前已经谈论了很多hadoop体系理论上的东西,而关于MR的编写并没有涉及很多。这里系统的讲一下MR的原理以及实战,迈好我们进行大数据处理的第一步。 MapReduce的原理 很简单,如图所示,已经...

2017/02/14 15:51
118
Hadoop安装纲领

具体配置文件如何更改诸位自己网上搜搜

2016/12/20 16:04
12
不谈情怀,只跟你谈Hive SQL

标题这么写,是因为Hive毕竟是Apache的A级子项目,想把所有Language Manual的知识点融合到一篇博客里面也不太现实。这里仅仅起到抛砖引玉的作用,详情可以访问: [https://cwiki.apache.org/...

2016/12/06 00:58
115
聊聊Hive

首先问个问题,你们都知道SQL是什么吧?不错,它是Structured Query Language,一种结构化查询语言,针对的是诸如Oracle,MySQL,DB2等关系型数据库。 Hive定义 Hive是建立在 Hadoop 上的数据...

2016/12/01 21:08
36
namenode如何存储复本?

namenode如何选择在哪个datanode存储复本?这里需要对可靠性,写入带宽和读取带宽进行权衡。例如,把所有复本都存储在一个节点损失的写入带宽最小,因为复制管线都是在同一节点上运行,但这并...

2016/11/30 11:52
15
数据库和数据仓库的区别

有两个层面/角度来回答这个有趣的问题: 1,逻辑层面/概念层面:数据库和数据仓库其实是一样的或者及其相似的,都是通过某个数据库软件,基于某种数据模型来组织、管理数据。但是,数据库通常...

2016/11/28 12:06
221
《Hadoop权威指南》读书简记

不定期更新自己的读书简记

2016/11/27 16:19
31
为什么map分片大小要与块大小相同?

所有的省时间优化,主要是讲Hadoop采用的数据本地优化,避免浪费宝贵的网络带宽,但是有时候对于一个Map任务输入来说,储存有某个HDFS数据块备份的三个节点可能正在运行其他map任务,此时作业...

2016/11/27 15:59
50
为什么关系型数据库不适于Hadoop

以及我们为什么需要mapreduce

2016/11/20 23:19
144
大数据生态圈

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之...

大数据技术核心之ETL

我们从:数据采集、数据存储、数据管理、数据分析与挖掘, 四个方面讨论大数据在实际应用中涉及的技术与知识点。 核心技术 架构挑战: 1、对现有数据库管理技术的挑战。 2、经典数据库技术并...

2016/11/20 10:54
101
机器学习——几种距离度量方法比较

1. 欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧...

2016/11/14 18:02
3.5W
为什么Hadoop采用64M的分块?

为什么不能远少于64MB(或128MB或256MB) (普通文件系统的数据块大小一般为4KB)

2016/11/07 00:50
91

没有更多内容

加载失败,请刷新页面

返回顶部
顶部