hadoop配置文件详解

2018/07/16 16:27
阅读数 35

Hadoop 单机配置文件详解
Hadoop配置单机需要修改core-site.xml、fairscheduler.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、yarn-site.xml这几个文件,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。
Core-site.xml
参数fs.default.name 指定namenode的地址
fairScheduler.xml
在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapReduce任务,Hadoop中提供的公平调度器-Fair Scheduler,就可以满足这种需求。在单机中可以不配置。
Hadoop-env.sh 只要修改export JAVA_HOME=/home/dongwengao/hadoop/jdk1.6.0_45/表示 The java implementation to use.
Mapred-site.xml
mapreduce.framework.name:新框架支持第三方MapReduce开发框架以支持如Smart Talk/DGSG等非Yarn架构,注意通常情况下这个配置的值都设置为Yarn,如果没有配置这项,那么提交的Yarnjob只会运行在locale模式,而不是分布式模式。
Hdfs-site.xml
dfs.replication:指定DataNode存储block的副本数量
dfs.namenode.name.dir:指定namenode名称空间的存储地址
dfs.datanode.data.dir:指定datanode数据存储地址
Yarn-site.xml
yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置mapreduce_shuffle,才可运行MapReduce程序


Hadoop多机部署配置文件
dfs.nameservices:给这个HDFS起个别名如hadoop-test
dfs.ha.namenodes.hadoop-test:指定集群为hadoop-test中的namenode有哪些如nn1,nn2
dfs.namenode.rpc-address.hadoop-test.nn1:rpc远程过程调用指定nn1的RPC地址
dfs.namenode.http-address.mycluster.nn1:指定nn1的http地址
dfs.namenode.shared.edits.dir:指定该集群两个namenode共享edits文件目录时,使用的JournalNode:集群信息

dfs.journalnode.edits.dir:指定JournalNode集群在对NameNode的目录进行共享时,自己存储数据的磁盘路径
dfs.ha.automatic-failover.enabled:指定当前NameNode故障时是否自动切换到另一个NameNode
Mapred-site.xml
mapreduce.jobhistory.address+mapreduce.jobhistory.webapp.address:配置历史服务器
Slaves配置datanode主机名
Yarn-site.xml
yarn.resourcemanager.hostname:资源管理器域名
yarn.resourcemanager.address:ResourceManager对客户端暴露的地址。客户端通过该地址想RM提交应用程序,杀死应用程序等。
yarn.resourcemanager.scheduler.address:ResourceManager对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址想RM申请资源、释放资源等。
yarn.resourcemanager.webapp.addressResourcemangeer对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息。
yarn.resourcemanager.webapp.https.address:https访问地址
yarn.resourcemanager.resource-tracker.address:ResourceManager对NodeManager暴露的地址,NodeManager通过该地址向RM汇报心跳,领取任务等。
yarn.resourcemanager.admin.address:ResourceManager对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。
yarn.resourcemanager.scheduler.class:启用的资源调度器主类
yarn.scheduler.fair.allocation.file:fairscheduler配置文件位置
yarn.nodemanager.local-dirs
yarn.log-aggregation-enable:Whether to enable log aggregation
yarn.nodemanager.remote-app-log-dirf:Where to aggregate logs to.
yarn.nodemanager.resource.memory-mb:NodeManager总的可用物理内存
yarn.nodemanager.resource.cpu-vcores:NodeManager总的可用虚拟CPU个数



展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部