加载中
Hadoop框架:HDFS高可用环境配置

本文源码:GitHub·点这里 || GitEE·点这里 一、HDFS高可用 1、基础描述 在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以通过配置Active/Standby两个NameN...

Hadoop框架:HDFS简介与Shell管理命令

本文源码:GitHub·点这里 || GitEE·点这里 一、HDFS基本概述 1、HDFS描述 大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容错能力,...

Hadoop框架:HDFS读写机制与API详解

本文源码:GitHub·点这里 || GitEE·点这里 一、读写机制 1、数据写入 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存在; NameNode响应客户端是否可以上传; 客户...

Hadoop框架:NameNode工作机制详解

本文源码:GitHub·点这里 || GitEE·点这里 一、存储机制 1、基础描述 NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存...

2020/10/12 10:10
46
Hadoop框架:单服务下伪分布式集群搭建

本文源码:GitHub·点这里 || GitEE·点这里 一、基础环境 1、环境版本 环境:centos7 hadoop版本:2.7.2 jdk版本:1.8 2、Hadoop目录结构 bin目录:存放对Hadoop的HDFS,YARN服务进行操作的脚...

Hadoop框架:DataNode工作机制详解

本文源码:GitHub·点这里 || GitEE·点这里 一、工作机制 1、基础描述 DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验、时间戳...

Hadoop框架:集群模式下分布式环境搭建

本文源码:GitHub·点这里 || GitEE·点这里 一、基础环境配置 1、三台服务 准备三台Centos7服务,基础环境从伪分布式环境克隆过来。 133 hop01,134 hop02,136 hop03 2、设置主机名 ## 设置...

数据仓库组件:Hive环境搭建和基础用法

本文源码:GitHub || GitEE 一、Hive基础简介 1、基础描述 Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储...

大数据简介,技术体系分类整理

本文源码:GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决...

数据仓库组件:HBase集群环境搭建和应用案例

本文源码:GitHub || GitEE 一、Hbase简介 1、基础描述 Hadoop原生的特点是解决大规模数据的离线批量处理场景,HDFS具备强大存储能力,但是并没有提供很强的数据查询机制。HBase组件则是基于...

Hadoop框架:Yarn基本结构和运行原理

本文源码:GitHub·点这里 || GitEE·点这里 一、Yarn基本结构 Hadoop三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce,分布式集群资源调度框架Yarn。Yarn并不是在Hadoop初期就有...

Hadoop框架:MapReduce基本原理和入门案例

本文源码:GitHub·点这里 || GitEE·点这里 一、MapReduce概述 1、基本概念 Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行运算,其中Map(映射)...

数据源管理 | 基于DataX组件,同步数据和源码分析

本文源码:GitHub·点这里 || GitEE·点这里 一、DataX工具简介 1、设计理念 DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、...

2020/05/06 07:46
224

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部