文档章节

hadoop入门

skanda
 skanda
发布于 2015/12/14 22:28
字数 396
阅读 330
收藏 6

hadoop解决三个问题

1,数据存储;hdfs实现数据存储;

   单硬盘读取目前是个瓶颈,转用多硬盘并行读取

2,数据分析;mapreduce

3,协调处理;mapreduce


mapreduce:

从100个硬盘中同时读取数据,做[排序],

mapreduce提出一个编程模型,将对硬盘读写操作->对一个键值对数据集操作;

map:映射

reduce:规约


传统关系型数据库往往使用B树记录数据,mapreduce使用 排序/合并

当数据量较小时,b树效率高;

当数据量极大时,排序/合并效率高;

其实mapreduce有点类似算法导论中的排序/合并算法;以空间换时间;


Hadoop:最快的TB级数据排序系统;

GFS:GOOGLE分布式文件系统:爬虫爬取了上亿网页数据;需要对数据快速进行搜索排序;


hadoop运行模式:

独立模式/伪分布模式/全分布模式

hadoop节点任务控制:

hadoop由一个jobtracker以及一系列tasktracker控制任务执行;

jobtracker分发任务给各个tasktracker,

tasktracker跟踪任务进度并做任务进度跟踪;

如果某个tasktracker挂了,jobtracker重新将task分配给新的tasktracker;



常用命令:hadoop version

示例工程:http://download.csdn.net/detail/ronghua_liu/9362459

http://zh.hortonworks.com/hadoop/

© 著作权归作者所有

skanda
粉丝 11
博文 105
码字总数 60011
作品 0
厦门
私信 提问
加载中

评论(2)

skanda
skanda 博主

引用来自“zonghua”的评论

那么和NoSQL有什么区别?就是没有提供直接的使用接口?
hadoop有个hbase,Hbase是运行在Hadoop上的NoSQL数据库, nosql是一种存储,hadoop是包含存储的分布式架构。
啦啦啦拉拉
啦啦啦拉拉
那么和NoSQL有什么区别?就是没有提供直接的使用接口?

暂无文章

《JAVA核心知识》学习笔记 (21. JAVA 算法)

21. JAVA 算法

Shingfi
4分钟前
1
0
redis 命令

redis 秒杀用到的 原子锁 :$redis->decr('jili_reward_goods_stock_' . $gifts_id) redis 秒杀用到的原子锁在秒杀过程中库存量增加 $redis->incrBy('key1', 10); redis 键查看重复:$redis-......

小小小壮
5分钟前
1
0
像智能手机一样管理云端应用:阿里云联合微软全球首发开放应用模型(OAM)

2019 年 10 月 17 日上午 9 点 15 分,阿里巴巴合伙人、阿里云智能基础产品事业部总经理蒋江伟在 QCon 上海《基于云架构的研发模式演进》主题演讲中,正式宣布: “今天,我们同微软联合发布...

阿里巴巴云原生
14分钟前
2
0
SpringBoot配置数据源

默认数据源 Springboot默认支持4种数据源类型,定义在 org.springframework.boot.autoconfigure.jdbc.DataSourceAutoConfiguration 中,分别是: org.apache.tomcat.jdbc.pool.DataSource......

Gx_ww
17分钟前
1
0
Java应用在docker环境配置容器健康检查

在《极速体验docker容器健康》一文已体验了docker容器健康检查功能,今天就来给java应用的容器加入健康检查,使应用的状态随时都可以被监控和查看。 实战环境信息 操作系统:macOS Catalina ...

程序员欣宸
19分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部