文档章节

GenericWritable

Zero零_度
 Zero零_度
发布于 2015/01/11 19:43
字数 418
阅读 86
收藏 0

package com.test;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.GenericWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 业务场景:
 * 含有两个文件,两个文件中单词之间的分隔方式不一样,但是统计出单词在两个文件中公共出现的次数

 *
 * 文件来源1,逗号分隔text1.txt
 *  hello,what
 *  you,haha
 * 文件来源2,制表符分隔text2.txt
 * girl boy
 * father mother
 */
public class WordCountGenericWritable extends Configured implements Tool {
 
 public static class Map1 extends Mapper<LongWritable, Text, Text, MyGenericWritable> {
  public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   String line = value.toString();
   
   StringTokenizer st = new StringTokenizer(line, ",");
   while(st.hasMoreElements()) {
    context.write(new Text(st.nextElement().toString()), new MyGenericWritable(new LongWritable(1)));
   }
  }
 }
 
 public static class Map2 extends Mapper<Text, Text, Text, MyGenericWritable> {
  public void map(Text key, Text value, Context context) throws IOException, InterruptedException {
   context.write(key, new MyGenericWritable(new Text("1")));
   context.write(value, new MyGenericWritable(new Text("1")));
  }
 }
 
 public static class Reduce extends Reducer<Text, MyGenericWritable, Text, IntWritable> {
  public void reduce(Text key, Iterable<MyGenericWritable> values, Context context) throws IOException, InterruptedException {
   int count = 0;
   Iterator<MyGenericWritable> it = values.iterator();
   while(it.hasNext()) {
    MyGenericWritable myGw = it.next();
    Writable value = myGw.get();
    if(value instanceof LongWritable) {
     count = count + Long.valueOf(((LongWritable)value).get()).intValue();
    }
    if(value instanceof Text) {
     count = count + Long.valueOf(((Text)value).toString()).intValue();
    }
   }
   context.write(key, new IntWritable(count));
  }
 }
 
 public int run(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
  Configuration conf = this.getConf();
  Job job = new Job(conf);
  job.setJobName(WordCountGenericWritable.class.getSimpleName());
  job.setJarByClass(WordCountGenericWritable.class);
  
  MultipleInputs.addInputPath(job, new Path("hdfs://grid131:9000/text1.txt"), TextInputFormat.class, Map1.class);
  MultipleInputs.addInputPath(job, new Path("hdfs://grid131:9000/text2.txt"), KeyValueTextInputFormat.class, Map2.class);

  
  FileOutputFormat.setOutputPath(job, new Path(args[1]));
  job.setReducerClass(Reduce.class);
  
  job.setOutputFormatClass(TextOutputFormat.class);
  
  //当map的输出类型和reduce的输出类型不一致的时候,需要单独设置map输出类型
  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(MyGenericWritable.class);
  
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  
  job.waitForCompletion(true);
  
  return job.isSuccessful()?0:1;
 }
 
 public static void main(String[] args) throws Exception {
  int exit = ToolRunner.run(new WordCount(), args);
  System.exit(exit);
 }
 
}

class MyGenericWritable extends GenericWritable {

 public MyGenericWritable() {
  
 }
 
 public MyGenericWritable(LongWritable longWritable) {
  super.set(longWritable);
 }
 
 public MyGenericWritable(Text text) {
  super.set(text);
 }
 
 @Override
 protected Class<? extends Writable>[] getTypes() {
  return new Class[]{LongWritable.class, Text.class};
 }
 
}

© 著作权归作者所有

共有 人打赏支持
上一篇: hadoop排序分组
下一篇: NLineInputFormat
Zero零_度
粉丝 69
博文 1250
码字总数 254751
作品 0
程序员
私信 提问
hadoop深入研究:(十一)——序列化与Writable实现

转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/9249411 所有源码在github上,https://github.com/lastsweetop/styhadoop 简介 在hadoop中,Writable的实现类是个庞......

lastsweetop
2013/07/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多
get和post详解

get和post是表单提交的两种方式,get请求数据通过域名后缀URL传送,用户可见,不安全,post请求数据通过在请求报文正文里传输,相对比较安全。get是通过URL传递表单值,post通过URL看不到表单...

青衣霓裳
24分钟前
0
0
linux-如何快速替换IP

在Linux在做高可用的时候,经常会使用到虚拟IP。在windows上一个网卡可以配置两个IP,在Linux直接使用ip命令就可以添加了。 添加 ip address add 192.168.1.200/24 broadcast 192.168.1.255 ...

Linux就该这么学
29分钟前
0
0
Unix-Linux 编程实践教程 第五章 小结

设备文件中用逗号连接起来的两个数字为主设备号和从设备号。主设备号确定实际的设备驱动程序,从设备号作为参数。 如下图中的,主设备号-4,从设备号-2 设备文件中的i-node存储的是指向内核子...

Explorer0
32分钟前
1
0
virtual box centos7 挂载进行文件和共享使用说明

一、virtualbox共享文件夹无访问权限问题解决方法 (转载 http://www.cnblogs.com/zhuguanhao/p/6192777.html) 这篇文章主要介绍了virtualbox共享文件夹无访问权限问题解决方法,造成这个问题...

mbzhong
34分钟前
1
0
Rabbitmq---消息队列

一 . MQ:message queue   消息队列的作用:   1 通信解耦   2 高峰限流 原理分析: 一开始,认证系统是强耦合的,A系统传递认证系统消息接收计算结果的过程中   1 传给认证系统   2 认...

Ala6
38分钟前
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部