文档章节

大数据基础之Hadoop基础系列:HDFS文件系统

 云逸清风
发布于 07/09 18:18
字数 728
阅读 1
收藏 0

HDFS 基本概念

  1. 块 (Block)
    1. 是一个固定大小的逻辑单元
    2. HDFS的文件被分成块进行存储
    3. HDFS块的默认大小64MB
    4. 块是文件存储处理的逻辑单元
  2. HDFS 的两类节点
    1. NameNode  ( HDFS的管理节点,唯一,存放文件元数据 )
      1. 文件与数据块的映射表
      2. 数据块与数据节点的映射表
    2. DataNode  ( HDFS的工作节点,存放数据块 )

数据管理策略

  1. 数据块副本
    1. 每个数据块 都是三个副本
  2. 心跳检测
    1. DataNode 会 定期向 NameNode 发送心跳信息(包括网络状态,主机状态等)
  3. 二级NameNode (Secondary NameNode )
    1. 定期同步NameNode元数据映像文件和修改日志, 正常情况下 只充当备份使用, 当NameNode发生故障时,即启用为NameNode,保障Hadoop的高可用性.

HDFS文件读写操作

  1. HDFS读取文件的流程
    1. 客户端向NameNode发起文件读取请求 (文件名, 路径)
    2. NameNode 根据请求查询相关信息,返回元数据 ( 元数据中标明了该文件存在哪些块,这些块都存储在哪些DataNode节点上 )
    3. 客户端通过元数据 找到 DataNode 并获取数据块,下载后将这些数据块组装为文件.
  2. HDFS写入文件的流程
    1. 客户端在上传之前将文件拆分为块, 向NameNode请求.
    2. NameNode 返回运行状态良好,有可用存储空间的DataNodes.
    3. 客户端根据获取的DataNodes开始写入第一个数据块.
      1. 写入第一份数据块然后通过一个复制管道,流水线复制到其他DataNode上.
      2. 在该数据库 写入并复制完成后,开始向 NameNode 更新元数据.
    4. 客户端继续写入下一个数据块, 重复 3.1与3.2的操作.

HDFS的特点

  1. 数据冗余,硬件容错
  2. 流式的数据访问 ( 一次写入,多次读取,顺序读写,不便于修改 )
  3. 存储大文件
  4. 适合数据批量读写,吞吐量高, 不适合交互式应用,低延迟很难满足.

HDFS的使用 ( 命令行 )

hadoop fs -ls/      -- 列出HDFS全部文件目录
hadoop fs -put  要上传文件 上传至的文件目录           -- 上传一个本地文件
hadoop fs -mkdir 目录名     -- 创建一个文件目录
hadoop fs -cat 目录/文件名     -- 查看一个文件
hadoop fs -get 目录/文件名 新的文件名(不写也可以)     --  从HDFS下载一个文件
hadoop dfsadmin -report    -- 查询HDFS文件系统的详细信息

© 著作权归作者所有

云逸清风

粉丝 0
博文 30
码字总数 8852
作品 0
海淀
技术主管
私信 提问
Hadoop简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很...

晨曦之光
2012/03/09
224
0
Hadoop大数据开发框架学习

一.Hadoop框架介绍 hadoop是Apache发布的开源分布式基础架构 他的两个核心是 HDFS HDFS是Hadoop的文件管理系统,负责了海量数据的存储,是做大数据的基础 MapReduce MapReduce则是为了海量数...

jokerhzf
2018/08/31
0
0
数道云解析:基于Hadoop集群环境的数据采集和舆情监测技术分析,Hadoop在大数据平台搭建中扮演着何种角色?

hadoop核心技术以及框架搭建,基于Hadoop大数据如何实现数据采集,舆情监测? 互联网大数据时代,海量数据采集、数据分析、舆情监测愈来愈最重要。如何从互联网如此大集群数据中提取出有价值...

sdydata
05/07
0
0
hdfs源码详解系列(第一节)

hdfs基础架构介绍 hdfs简介 hdfs是hadoop distributed filesystem的缩写,设计思想最早源于GFS(google分布式文件系统),顾名思义就是hadoop分布式文件系统,简单通俗的将就是将一个大文件切...

dingyanming
2018/03/15
0
0
《Hadoop基础教程》之初识Hadoop

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一...

Carl_
2015/05/08
65
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Security 实战干货:实现自定义退出登录

1. 前言 上一篇对 Spring Security 所有内置的 Filter 进行了介绍。今天我们来实战如何安全退出应用程序。 2. 我们使用 Spring Security 登录后都做了什么 这个问题我们必须搞清楚!一般登录...

码农小胖哥
9分钟前
2
0
JVM核心知识-类加载机制

JVM中类的生命周期包括7个阶段,加载、准备、验证、解析、初始化、使用、卸载。其中准备、验证、解析被归为连接阶段。 加载 jvm在这个阶段完成的工作 通过类名获取类的二进制字节流 将这个字...

moon888
9分钟前
4
0
.net工作流引擎ccflow流程结束相关功能的介绍

关键字: 工作流程管理系统 工作流引擎 asp.net工作流引擎 java工作流引擎. 表单引擎 工作流功能说明 工作流设计 工作流快速开发平台 业务流程管理 bpm工作流系统 java工作流主流框架 自定义...

孟娟
23分钟前
3
0
APP 值入轻量级钱包以太坊网络钱包

APP 值入轻量级钱包以太坊网络钱包

xiaodong16
27分钟前
3
0
云原生下数据治理的微服务架构

摘要: 现代软件发展历程中,微服务概念早在2014年由两位美国学者提出,2015年云原生也在linux基金会的推动下茁壮成长。短短几年,越来越多的公司投入研究,越来越多的技术框架孕育而生。本文...

恒宝乐园
34分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部