文档章节

hadoop权威指南阅读(二)

蓝狐乐队
 蓝狐乐队
发布于 2014/04/13 21:19
字数 639
阅读 46
收藏 0

1、文件压缩对于hadoop集群来说有很大的好处,1可以减少磁盘存储文件空间 2.可以加速数据网络和磁盘上的传输速度。

在集群中需要权衡压缩和解压缩的时间,hadoop有不同的解压缩方法需要权衡一下 见第四章压缩。

2、gzip格式压缩不支持分片,这样会失去Map数据的本地性,大大降低了执行效率。

3、Text类型一般认为是Writable的替代类型,但并不是一个好的替代 1、他不支持超过32767的字节编码,2 它使用的是UTF-8版本修订的。

4、writeable类型底层实现了序列化和comparable接口 这样 在序列化完成之后,他会调用comparable进行比较按照大到小的顺序。

5、尽管大多数MR程序使用Writeable类型的键和值但这并不是MR api强制的,事实上可以使用任何类型,只要能够实现类型的的二进制流的转换就可以。为实现这一功能 hadoop有自己的机制serialization.,它定义了从类型到Serializer实例将对象转换为字节流的和Deserializer实例将字节流转换为对象的映射方式。

6、jobtracker和tasktracker之间是有心跳通信的,通常最小是5秒,不过也要根据集群的规模而定,

7、map的过程并不是简简单单将数据写入磁盘,他利用缓冲的方式写到内存中,并处于效率的考虑进行预先排序,默认情况下每个map任务都有一个环形缓冲区,缓冲区的默认值大小是100m可以有io.sort.mb调整该值的属性,一旦缓冲区的的内容达到阀值的80%,一个后台线程调用spill方法将内容写入到磁盘中,map会产生阻塞直到写磁盘过程完成。这样有什么好处呢,这样的话就可以避免当文件很小时直接在内存中取了,效率更高。

8、在R阶段R任务需要在集群上若干个map任务的输出作为特殊的分区文件,由于每个任务完成的可能不同,因此只要有一个任务完成,R任务就会开始复制,这是复制阶段,R任务有少量的复制线程,默认值是5个,因此能够并行取得map输出。

© 著作权归作者所有

蓝狐乐队
粉丝 106
博文 322
码字总数 89813
作品 0
昌平
程序员
私信 提问
Java程序员读书推荐(排名不分先后)

计算机程序设计艺术(卷一:基本算法;卷二:半数值算法;卷三:排序与查找) 2. coder面试逻辑题解析 3. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 4. JavaScript权威指南 5. J...

pricker
2016/01/28
157
0
Hadoop资源共享啦

Hadoop资源共享啦!上个暑假,将《Hadoop权威指南》认真看了一遍,看的是第二版。给我最深的体味就是这本书将理论讲得很深入全面、并将理论提 升到了实践,比如说,书中给出了很多处理气象暑假...

liunkor
2013/09/12
304
1
2016年度读书单

2016年01月01日 《HBase 管理指南》 2016年01月04日 《Hadoop技术详解》 2016年02月28日 《hive编程指南》 2016年03月13日 《Java并发编程》 2016年05月02日 《大型分布式网站架构设计与实践...

Ryan-瑞恩
2015/12/31
123
0
Looly/elasticsearch-definitive-guide-cn

Elasticsearch 权威指南(中文版) 阅读地址: Elasticsearch权威指南(中文版) 最新版阅读地址:Elasticsearch: 权威指南 感谢大家对Elasticsearch权威指南(中文版)的支持,现在新版的翻...

Looly
2014/09/22
0
0
学好机器学习和大数据必备的6本好书!

机器学习和数据科学是复杂而相互关联的概念。要想让自己在技术紧跟趋势,你必须消耗大量的时间进行知识的更新。 日复一日的重复劳动不等于学习,这样仍有可能掉队。 所以一方面我们需要学习新...

金鑫工程师
03/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Mysql的sql_mode模式

sql_mode 是一个很容易被忽视的配置,宽松模式下可能会被输入一些非准确数据,所以生产环境下会要求为严格模式,为了保持生产环境和开发环境,测试环境一致性,我们开发环境和测试环境也要配...

贾峰uk
28分钟前
2
0
Qt程序打包发布方法(使用官方提供的windeployqt工具)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/toTheUnknown/article/details/81748179 如果使用到了Qt ...

shzwork
58分钟前
7
0
MainThreadSupport

MainThreadSupport EventBus 3.0 中的代码片段. org.greenrobot.eventbus.MainThreadSupport 定义一个接口,并给出默认实现类. 调用者可以在EventBus的构建者中替换该实现. public interface ...

马湖村第九后羿
今天
3
0
指定要使用的形状来代替文字的显示

控制手机键盘弹出的功能只能在ios上实现,安卓是实现不了的,所以安卓只能使用type类型来控制键盘类型,例如你要弹出数字键盘就使用type="number",如果要弹出电话键盘就使用type="tel",但这...

前端老手
今天
8
0
总结:Raft协议

一、Raft协议是什么? 分布式一致性算法。即解决分布式系统中各个副本数据一致性问题。 二、Raft的日志广播过程 发送日志到所有Followers(Raft中将非Leader节点称为Follower)。 Followers收...

浮躁的码农
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部