文档章节

hadoop 2.2.0 编译运行wordcount

Adel
 Adel
发布于 2014/09/05 16:31
字数 637
阅读 693
收藏 5

hadoop2.2.0 编译运行wordcount,因为hadoop2.2.0不支持eclipse的插件,所以运行wordcount,需要手动编译并将wordcount打包成jar包来运行,下面记录一下编译运行的过程,希望能给大家有些帮助。


1、首先介绍下hadoop的版本问题,当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。由于hadoop 2.0不用于hadoop 1.0的API,所以,从hadoop 1.0升级到hadoop 2.0需要重写mapreduce程序,关于从Hadoop 1.0升级到2.0(1)参考链接: http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-to-version-2/  hadoop 2.2.0新功能介绍 参考链接http://docs.aws.amazon.com/zh_cn/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-2.2.0-features.html 

2、然后就是准备程序WordCount.java在/root/test/下:

import java.io.IOException;  
import java.util.StringTokenizer;  
  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.IntWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.Reducer;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
import org.apache.hadoop.util.GenericOptionsParser;  
  
public class WordCount {  
  
  public static class TokenizerMapper   
       extends Mapper<Object, Text, Text, IntWritable>{  
      
    private final static IntWritable one = new IntWritable(1);  
    private Text word = new Text();  
    // value已经是文件内容的一行  
    public void map(Object key, Text value, Context context  
                    ) throws IOException, InterruptedException {  
      StringTokenizer itr = new StringTokenizer(value.toString());  
      while (itr.hasMoreTokens()) {  
        word.set(itr.nextToken());  
        context.write(word, one);  
      }  
    }  
  }  
    
  public static class IntSumReducer   
       extends Reducer<Text,IntWritable,Text,IntWritable> {  
    private IntWritable result = new IntWritable();  
  
    public void reduce(Text key, Iterable<IntWritable> values,   
                       Context context  
                       ) throws IOException, InterruptedException {  
      int sum = 0;  
      for (IntWritable val : values) {  
        sum += val.get();  
      }  
      result.set(sum);  
      context.write(key, result);  
    }  
  }  
  
  public static void main(String[] args) throws Exception {  
    Configuration conf = new Configuration();  
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();  
    if (otherArgs.length != 2) {  
      System.err.println("Usage: wordcount <in> <out>");  
      System.exit(2);  
    }  
    Job job = new Job(conf, "word count");  
    job.setJarByClass(WordCount.class);  
    job.setMapperClass(TokenizerMapper.class);  
    job.setCombinerClass(IntSumReducer.class);  
    job.setReducerClass(IntSumReducer.class);  
    job.setOutputKeyClass(Text.class);  
    job.setOutputValueClass(IntWritable.class);  
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));  
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));  
    System.exit(job.waitForCompletion(true) ? 0 : 1);  
  }  
}

3、新建bin文件夹在/root/test/下,将WordCount编译成class文件,命令如下:

root@ubuntupc:/home/ubuntu/software/cdh5-hadoop/share/hadoop# javac -classpath common/hadoop-common-2.2.0-cdh5.0.0-beta-2.jar:common/lib/commons-cli-1.2.jar:common/lib/hadoop-annotations-2.2.0-cdh5.0.0-beta-2.jar:mapreduce/hadoop-mapreduce-client-core-2.2.0-cdh5.0.0-beta-2.jar -d /root/test/bin/ /root/test/WordCount.java

4、将class文件打包成jar包,命令如下:

root@ubuntupc:~/test# jar -cvf WordCount.jar com/du/simple/*.class

5、运行jar文件

root@ubuntupc:~/test# hadoop jar WordCount.jar com/du/simple/WordCount /user/root/input /user/root/output

6、查看运行结果

root@ubuntupc:~/hadoop/WordCount# hadoop fs -cat output/part-r-00000

好的,到此打完收功!

© 著作权归作者所有

Adel
粉丝 10
博文 71
码字总数 61751
作品 0
海淀
程序员
私信 提问
加载中

评论(1)

zhuqi259
zhuqi259
eclipse插件可以自己编译生成
1、Spark预编译版本下载安装与启动

1、下载 2、安装 3、hadoop 4、spark-shell scala> file.first() 5、Resilient Distributed Dataset 6、通过编译方式安装spark 轻量级高速集群计算。针对大规模的数据处理快速通用的引擎。比...

chenkangyao
2017/10/26
30
0
spark2.x由浅入深深到底系列七之python开发spark环境配置

学习spark任何的技术前,请先正确理解spark,可以参考: 正确理解spark 以下是在mac操作系统上配置用python开发spark的环境 一、安装python spark2.2.0需要python的版本是Python2.6+ 或者 Py...

tangweiqun
2017/09/21
0
0
hadoop2.2.0源代码编译

一、环境说明 虚拟软件:VMware Workstation 10 虚拟机配置: RHEL Server release 6.5 (Santiago) 2.6.32-431.el6.x86_64 cpu:4核心,内存:4G,硬盘:50G 二、前提条件: 1:将rhel6.5的iso文件作为...

cloud-coder
2014/01/11
5K
6
Hadoop2.2 对字符统计的测试

打开官方下载链接 http://hadoop.apache.org/releases.html#Download ,选择2.2.0版本的发布包下载后解压到指定路径下: $ tar -zxf hadoop-2.2.0.tar.gz -C /usr/local/$ cd /usr/local$ ln ......

颜建海
2014/04/30
495
0
hadoop2.0集群搭建详解

hadoop2.2.0集群搭建 PS:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的, 因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重...

迪allen
2014/03/31
10.7K
11

没有更多内容

加载失败,请刷新页面

加载更多

为构建社交关系链手淘都做了啥?

作者|王卫(泓冰) 出品|阿里巴巴新零售淘系技术部 01、淘宝社交关系推荐的背景 1、互联网下半场到来:互联网的下半场,人口红利消失,各大平台需要对用户做精细化运营,用户的增长和留存是每一...

阿里云官方博客
3分钟前
2
0
Iaas/Paas/Saas有何区别,一个故事告诉你

云计算有三种服务模式,IaaS,PaaS和SaaS。单从英文全称去理解,他们分别是“基础设施即服务”“平台即服务”和“软件即服务”。 这样翻译过来可不好理解,但是我们可以举个例子。现在我们就以...

JEPaaS云平台
11分钟前
3
0
温度传感器怎么测好坏

  温度传感器也就是负温度系数热敏电阻,温度越高,电阻越小,测量时先看其阻值能不能根据温度的变化而变,再看其变化的阻值是不是在标定的范围之内。   有以下四种方法;   1、若是有...

仙溪
11分钟前
2
0
zk中ZooKeeperServer解析

内部类 ChangeRecord 处理PrepRP和FinalRP之间的信息 static class ChangeRecord { ChangeRecord(long zxid, String path, StatPersisted stat, int childCount, List<ACL> acl) {......

writeademo
21分钟前
3
0
LNMP---安装worrdpress、discuz,域名重定向,用户认证,nginx访问日志

4.34 安装wordpress 4.35 安装discuz 4.36 域名重定向 4.37 用户认证 4.38 nginx访问日志 一、安装wordpress 创建博客: 添加一个博客的虚拟主机 blog.tobe.com.conf 做如下更改 安装博客wor...

tobej
23分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部