文档章节

hadoop

Lbj虞
 Lbj虞
发布于 2017/06/26 11:08
字数 1314
阅读 30
收藏 0
点赞 0
评论 0

hadoop 是一个能对大数据进行分布式处理的软件框架,在集群上能充分的发挥出其出色的能力 分布式存储和分布式计算上面都使用了,主从(Master/Slave)

HDFS 分布式的文件存储系统,主要负责各个节点上的数据存储,并实现高吞吐率的数据读写

Hadoop,把应用程序分割成很小的工作单元,并把这些工作单元放到任何的集群节点上执行,在MapReDuce( MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,是一个基于集群的高性能并发计算平台, 是一个并行计算和运行软件的框架,是一个并行程序设计模型与方法 ),所以只有集群才能体现出Hadoop的高新能

Hadoop,把应用程序分割成很小的工作单元,并把这些工作单元放到任何的集群节点上执行 Hadoop 要想完整的运行起来,里面要启动一些相关程序,不同的程序扮演着不同的角色 下面是角色介绍 NameNode 是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据存储的节点位置,主要功能是对内存及I/O进行集中的管理 NameNode在整个集群中是单点的,如果NameNode宕机了,则整个hadoop就无法正常运行了

DataNode,每一个hadopp都会在后台运行一个DataNode程序,负责把HDFS里面的数据块读取到本地的文件系统。当客户端要对数据进行读写操作时,先由NameNode告诉客户端 去哪个DataNode上操作,然后客户端直接与DataNode通信,操作数据,数据的存储节点和数据的计算节点(TaskTracker运行在datanode)

Secondary NameNode 用来监控HDFS的一个辅助程序,会保存NameNode的快照,可以让NameNode宕机时的损失降到最低

JobTracker 用来连接应用程序和Hadoop,同事监控所有运行的Task ,不同的task分配不同的节点,每一个Hadoop集群只有一个JobTracker,一般运行在集群的Master节点上 TaskTracker 负责与存储数据的DataNode相结合,统领MapReduce工作,可以与JobTracker交互,如果JobTracker无法准时的获取到TaskTracker提交的信息, 则JobTasker就认为,此TaskTracker已失效,会把任务分配到另外的节点上

Hadoop子项目 Hadoop Common 为Hadoop的各个子项目提供各个工具 HDFS 分布式的文件存储系统,主要负责各个节点上的数据存储,并实现高吞吐率的数据读写 MapReduce 是一种编程模型,用于大规模数据集(大于1TB)的并行运算,是一个基于集群的高性能并发计算平台, 是一个并行计算和运行软件的框架,是一个并行程序设计模型与方法 相关项目 Hama:为科学计算提供的一个基于整体同步并行计算技术的分布式框架 Hbase:apache的一个顶级项目,基于列的存储形式的分布式数据库 Hive: 提供数据摘要和数据查询的数据仓储 Pig:实在mapReduce上构建的一种高级的数据流语言 Zookeeper: 注册中心,用于解决分布式数据一致性问题,管理服务,同步服务

以下都是hadoop2.0主版本 hadoop namenode -format

start-all.sh stop-all.sh hadoop dfs -put 文件路径 /放入文件夹名称 hadoop jar -/users/ems/BigData/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /in /out hadoop dfs -ls / //列出hdfs下面文件夹 hadoop dfs -ls /in //列出hdfs中 in文件下面的文档 hadoop dfs -get /in getin //将hdfs中的in文件夹复制到本地 hadoop dfs -rmr /out //删除hdfs中名字为out的文件夹 hadoop dfsadmin-safemode get //返回hadoop safemode的状态 hadoop dfsadmin-safemode enter //进入safemode 模式 hadoop dfsadmin-safemode leave //强制NameNode 离开safemode

NameNode 50070 dfs.namenode.http-address http服务的端口 ResourceManager 8088 yarn.resourcemanager.webapp.address http服务端口 /users/ems/BigData/hadoop-2.7.3 /usr/local/hadoop/2.6.0/libexec/share/hadoop/mapreduce

MapReduce 分布处理 map 阶段将数据分割成固定大小的片段,得到计算的中间结果 数目可以配置默认值为2

reduce 将得到的中间结果,合并成最后的数据结果 数目可以配置默认值为2 reduce 在数目配置的时候,通常要小于reduce slots(资源池的概念, 每一个map 和reduce执行时都必须获得一个slots才可以) 数目,防止在有reduce损坏的时候, 还有slots可以分配不影响任务的执行时间

倒排索引:文档检索中最常用的数据结构被广泛的用于全文搜索引擎。主要用来存储某个单词和词组, 来标记一个文档或者一组文档所在的存储位置,这种根据文档内容来查询文档,与根据文档来查询文档内容操作相反 因此倒排,索引就是单词或者一组词组

TextInputFormat 对输入文件进行处理 OutPutFormat 对输出数据进行处理

© 著作权归作者所有

共有 人打赏支持
Lbj虞
粉丝 3
博文 29
码字总数 20080
作品 0
南京
程序员

暂无相关文章

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

实验楼—MySQL基础课程-挑战3实验报告

按照文档要求创建数据库 sudo sercice mysql startwget http://labfile.oss.aliyuncs.com/courses/9/createdb2.sqlvim /home/shiyanlou/createdb2.sql#查看下数据库代码 代码创建了grade......

zhangjin7 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部