文档章节

Hadoop作业引用第三方jar文件

Zero零_度
 Zero零_度
发布于 2015/10/29 16:39
字数 1015
阅读 198
收藏 0

在eclipse中写mapreduce程序, 引用第三方jar文件, 可以利用eclipse Hadoop插件直接run on hadoop提交, 很方便. 不过插件版本要和eclipse匹配, 不然总是local执行, 在50070是没有job产生的.

如果希望将程序发布成jar文件, 在namenode上通过命令行方式执行, 缺少了eclipse帮忙自动配置jar文件, 会遇到java.lang.ClassNotFoundException, 这个问题可分成两种情况讨论.

一. hadoop命令式如何执行的?

其实$HADOOP_HOME/bin/hadoop是一个脚本文件. 以下wordcount命令为例

bin/hadoop jar wordcount.jar myorg.WordCount /usr/wordcount/input /usr/wordcount/output

脚本文件解析参数, 配置类路径等, 最终执行的是如下命令:

exec java -classpath $CLASSPATH org.apache.hadoop.util.RunJar $@

其中$CLASSPATH : 包含${HADOOP_CONF_DIR}, $HADOOP_HOME下的*.jar以及$HADOOP_CLASSPATH;

  • $@ : 所有脚本参数, 此处为jar后面的参数;

  • RunJar : 这个类的功能比较简单, 将jar文件解压到“hadoop.tmp.dir”目录下, 然后执行我们指定的类, 此处即为myorg.WordCount

p.s. hadoop脚本比较完整的分析可参见<Hadoop作业提交分析 http://www.linuxidc.com/Linux/2012-04/59199.htm >.

有RunJar执行WordCount后, 就进入我们的程序了, 需要配置mapper, reducer以及输出输出路径等等, 最终通过执行job.waitForCompletion(true)向JobTracker提交这个作业.

到目前可知, 已经完成了本地执行部分, 如果这段时期发生ClassNotFoundException, 则可以在自己的脚本文件中配置$HADOOP_CLASSPATH, 包含需要的第三方jar文件, 再执行hadoop命令, 此为情况一.

 

二. JobTracker和TaskTracker如何获得第三方jar文件?

有 时候提交job之后, 在map或者reduce函数中也会产生ClassNotFoundException. 这是因为map或reduce可能在其他机器上执行, 那些机器没有需要的jar文件, mapreduce作业交由JobTracker和TaskTracker执行, 两者如何获得第三方jar文件呢? 即为情况二.

我们首先来分析下mapreduce提交过程, 如下图所示.

mapreduce job提交过程

step 1.和2. 通过Job类提交作业, 获得一个作业号, 并根据conf决定作业时提交给LocalJobRunner还是JobTracker

step 3. copy job resource

client将作业所需资源上传到hdfs上, 如job split, jar文件等. JobClient通过configureCommandLineOptions函数处理jar文件, 该方法中通过job获得这些参数内容

files = job.get("tmpfiles"); // 对应参数项-files
libjars = job.get("tmpjars"); // 对应-libjars
archives = job.get("tmparchives"); // 对应-archives

如果jar文件有配置, 则将其加入到分布式缓存DistributedCache中, -libjars为例:

if (libjars != null) {
    FileSystem.mkdirs(fs, libjarsDir, mapredSysPerms);
    String[] libjarsArr = libjars.split(",");
    for (String tmpjars: libjarsArr) {
        Path tmp = new Path(tmpjars);
        Path newPath = copyRemoteFiles(fs, libjarsDir, tmp, job, replication);
        DistributedCache.addArchiveToClassPath(newPath, job);
    }
}

另 外, 在mapreduce程序的配置中总是需要job.setJarByClass来指定运行的类, 如此hadoop就可以根据该class定位到所在的jar文件, 就是我们打包的jar, 将其上传到hdfs上. 到此jobClient完成了资源复制过程, 这些资源可供JobTracker和TaskTracker使用.

step4-10. JobClient提交job并执行作业(JobTracker以及TaskTracker工作就不展开了, 详见<Map-Reduce过程解析> http://www.linuxidc.com/Linux/2011-11/47052.htm).

 

三. 总结

要想让mapreduce程序引用第三方jar文件, 可以采用如下方式:

  1. 通过命令行参数传递jar文件, 如-libjars等;

  2. 直接在conf中设置, 如conf.set(“tmpjars”,*.jar), jar文件用逗号隔开;

  3. 利用分布式缓存, 如DistributedCache.addArchiveToClassPath(path, job), 此处的path必须是hdfs, 即自己讲jar上传到hdfs上, 然后将路径加入到分布式缓存中;

  4. 第三方jar文件和自己的程序打包到一个jar文件中, 程序通过job.getJar()将获得整个文件并将其传至hdfs上. (很笨重)

  5. 在每台机器的$HADOOP_HOME/lib目录中加入jar文件. (不推荐)

p.s. 如果通过上面方法1.或2., 需要注意Configuration问题, 需要通过getConf()函数获得, 而不要自己new一个对象.

Hadoop怎样提交多个第三方jar包?  http://www.linuxidc.com/Linux/2012-02/53759.htm

本文转载自:http://www.linuxidc.com/Linux/2014-02/96177.htm

Zero零_度
粉丝 69
博文 1267
码字总数 263854
作品 0
程序员
私信 提问
运行Hadoop作业时一处常见错误以及解决方法

1. 问题描述 当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常: [15:10:41,949][ INFO][main][org.apache.hadoop.mapred.JobClient:1330] – Task Id : attempt_201202281244_000...

混绅士
2014/12/30
0
0
MapReduce作业运行第三方配置文件的共享方法

其实MapReduce作业运行第三方配置文件的共享方法往小了说其实就是参数在MapReduce作业中的传递,往大了说其实就是DistributedCache的应用。 在MapReduce中传递参数普遍用Configuration,Con...

混绅士
2014/12/23
0
0
将nutch源代码进行修改后,将项目和第三方jar包打成一个整体ar包的方法和感悟

打jar包的思路,参照上一篇资料《Eclipse将引用了第三方jar包的Java项目打包成jar文件的两种方法》 之所以再做笔记是因为:我在打好jar包后,在Linux下运行 [root@nutch-five test]# java -...

hiqj
2014/09/01
158
0
ToolRunner与eclipse hadoop 插件的替代品,简化M/R程序的开发

目前开发的时候测试M/R程序有三种方式 1. 直接打成jar包,然后放到服务器中去执行。此方法步骤繁琐,每次都要打包上传。 2. 使用Hadoop的Ecilpse插件,但是对于N多的Hadoop版本总替换插件,是...

martin_li
2012/09/11
635
0
hadoop 安装错误收集

[root@hadoop2 ~]# hadoop namenode -format DEPRECATED: Use of this script to execute hdfs command is deprecated. Instead use the hdfs command for it. Error: Could not find or loa......

盖世英雄到来
2015/11/30
291
0

没有更多内容

加载失败,请刷新页面

加载更多

哪些情况下适合使用云服务器?

我们一直在说云服务器价格适中,具备弹性扩展机制,适合部署中小规模的网站或应用。那么云服务器到底适用于哪些情况呢?如果您需要经常原始计算能力,那么使用独立服务器就能满足需求,因为他...

云漫网络Ruan
今天
5
0
Java 中的 String 有没有长度限制

转载: https://juejin.im/post/5d53653f5188257315539f9a String是Java中很重要的一个数据类型,除了基本数据类型以外,String是被使用的最广泛的了,但是,关于String,其实还是有很多东西...

低至一折起
今天
15
0
OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
11
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
9
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部