文档章节

Hadoop技术资料汇总(不断更新中)

九州暮云
 九州暮云
发布于 2019/05/07 21:26
字数 1191
阅读 478
收藏 6

这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢迎大家留言交流。感谢这些资料的作者。

一、HDFS

1、集群安装:

Hadoop 2.6.0 HA高可用集群配置详解

2、NameNode:

HDFS NameNode内存全景

3、DataNode:

Hadoop--HDFS之DataNode

4、权限管理:

HDFS权限管理实践

5、数据平衡:

How does the HDFS balancer work internally?

HDFS Commands, HDFS Permissions and HDFS Storage

HORTONWORKS官方文档:Balancing in HDFS

6、集群治理:

应对Hadoop集群数据疯长,这里祭出了4个治理对策!

基于FsImage的HDFS数据深度分析

NameNode Analytics: PayPal’s Big Data Guardian

7、问题汇总:

(1)Hadoop Non DFS Used大小问题:

Hadoop hdfs界面:Hadoop Non DFS Used大小问题

关于hadoop hdfs中Non DFS Used占用很大的问题分析处理

(2)小文件处理:

HDFS自定义小文件分析功能

HDFS文件目录list操作加速优化

(3)Namenode写Journalnode超时,导致Namenode挂掉的问题:

Namenode写Journalnode超时,导致Namenode挂掉的问题

java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond

关于机房交换机故障导致HDFS NameNode挂掉的问题(续)

NameNode HA异常调查

Timed out waiting 20000ms for a quorum of nodes to respond

namenode gc导致的故障一例

Standby NameNode is faling and only one is running

(4)HDFS NameNode 重启优化

(5)Hadoop节点"慢磁盘"监控

8、其他:

(1)Hadoop学习之路(十二)分布式集群中HDFS系统的各种角色

(2)监控相关:

HDFS Ports

hadoop指标项

NameNode Metrics

How to collect Hadoop metrics

(3)RPC:

NameNode 的RPC处理能力不足定位思路

二、YARN

1、调度队列:

Hadoop多用户资源管理–Fair Scheduler介绍与配置

Yarn公平调度器Fair Scheduler根据用户组分配资源池

YARN ResourceManager重启作业保留机制

【Free Style】Hadoop-Yarn之Resource Manager源码分析(四)

2、NodeManager:

NodeManager节点自身健康状态检测机制

3、ResourceManger:

ResourceManger Restart

YARN资源本地化深度解析

4、监控:

yarn社区原生界面详解

5、问题汇总:

(1)资源不足、任务资源分配不合理、队列资源分配不合理引起的资源预留问题:

What is Memory reserved on Yarn

Aggregate Resource Allocation for a job in YARN

(2)任务kill:

YARN批处理方式kill Applications解决方案

(3)Flink实时计算集群:ZooKeeper闪断导致的YARN任务状态不一致引起的RM崩溃问题:

NullPointerException in RM HA enabled 3-node cluster

NPE happened when RM restart after CapacityScheduler queue configuration changed

Flink on YARN with HA enabled crashes all RMs on attempt restoration

6、其他:

查看YARN任务日志的几种方式

YARN ApplicationId的生成方式

Yarn: Application Id - How is it generated ?

三、集群维护

关于DataNode更改IP地址后所可能引发HDFS集群状态变化的分析

四、博客&文章

1、lxw的大数据田地

2、过往记忆

3、Android路上的人

4、石杉的架构笔记:

兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理

大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍

5、每日 7 千次的跨部门任务调度,有赞怎么设计大数据开发平台?

6、Yarn FairScheduler 的资源预留机制导致的一次宕机事故分析

7、张翼:Spark SQL在携程的实践经验分享!

五、参考书籍

深度剖析Hadoop HDFS,林意群 著

Hadoop技术内幕:深入解析YARN架构设计与实现原理,董西成 著

大数据日知录,张俊林著

六、其他

1、Hadoop源码编译:

(1)环境准备:

brew install autoconf automake libtool

(2)编译:

Hadoop工程根目录下的BUILDING.txt中Maven build goals部分列出了编译Hadoop源码要用的maven命令,以下是参考文章:

编译命令:

mvn clean package -Pdist,native -DskipTests -Dtar

(3)问题解决:

© 著作权归作者所有

九州暮云
粉丝 73
博文 170
码字总数 138708
作品 0
海淀
高级程序员
私信 提问
加载中

评论(0)

Hadoop 2.0(YARN/HDFS)学习资料汇总

本文档整理了迄今为止Hadoop 2.0(包括YARN和HDFS2)相关的一些学习资料,包括文档、技术博客、Hadoop书籍等,欢迎大家补充,我将持续更新这个页面。 1. PDF资料 (1)“Apache Hadoop YARN:...

颜建海
2014/05/28
1K
0
2016 | 大数据平台类产品资讯汇总

InfoSphere Streams 平台支持流数据的实时处理,支持不断更新持续查询的结果,可在移动的数据流中检测洞察。 InfoSphere Streams——实时大数据分析平台 Streams V4.2新特性:支持使用 Pyth...

勿忘初心321
2016/11/25
37
0
【资料合集】阿里巴巴开源技术汇总——内含115个软件与100+技术文档、PDF下载

乔川 2017-08-15 14:24:39 浏览9529 评论3 发表于: 云栖社区官方团队 >> 社区精选文章集 云栖社区 分布式 大数据 HTTPS 开源 阿里巴巴 aliyun 阿里开源 摘要: 为了更好地让开发者们深入了解...

姬子玉
2017/11/28
0
0
数据库与数据仓库的区别(二)

数据库是操作型数据库,数据仓库是分析型数据库: 1. 操作型数据库 主要用于业务支撑。一个公司往往会使用并维护若干个数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订...

张欢19933
2016/08/21
69
0
想玩转工业界机器学习?先学Spark吧

0、为什么机器学习者需要学习spark? 关于大数据,有这样段话: “Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else......

流川枫AI
2017/12/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

基于 Roslyn 实现解析引擎

基于 Roslyn 实现一个简单的条件解析引擎 最近在做一个勋章的服务,我们想定义一些勋章的获取条件,满足条件之后就给用户颁发一个勋章,定义条件的时候会定义需要哪些参数,参数的类型,获取...

osc_mfth2zpa
27分钟前
52
0
将字符串中的字母全部转换为大写字母/小写字母

<script> let str = "Hello World!"; // 将字符串的字符全部转换为小写字符 function lowerCase(str) { let arr = str.split(""); let newStr = ""; //......

osc_xsr0bfp3
28分钟前
50
0
Vue 商城的一些小demo(后台添加商品、前台购物车、本地存储的使用)

demo 商城后台,添加一种商品 <!DOCTYPE html><html> <head> <meta charset="utf-8" /> <title></title> <!-- 引入vue.js --> <script src="js/vue.js......

osc_h8lo50ya
30分钟前
45
0
Git使用教程

Git使用教程 一:Git是什么? Git是目前世界上最先进的分布式版本控制系统。 二:SVN与Git的最主要的区别? SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是...

osc_c9pkd6zt
31分钟前
55
0
文件夹损坏无法打开如何恢复

问题描述: 目录损坏说明这个文件夹内部结构损坏了。文件夹损坏无法打开如何恢复具体恢复方法可以看正文了解(不格式化的恢复方法)。 工具/软件:极限数据恢复软件 步骤1:先百度搜索并下载...

osc_6mbnx553
32分钟前
50
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部