文档章节

GenericWritable

Zero零_度
 Zero零_度
发布于 2015/01/11 19:43
字数 418
阅读 86
收藏 0

package com.test;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.GenericWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 业务场景:
 * 含有两个文件,两个文件中单词之间的分隔方式不一样,但是统计出单词在两个文件中公共出现的次数

 *
 * 文件来源1,逗号分隔text1.txt
 *  hello,what
 *  you,haha
 * 文件来源2,制表符分隔text2.txt
 * girl boy
 * father mother
 */
public class WordCountGenericWritable extends Configured implements Tool {
 
 public static class Map1 extends Mapper<LongWritable, Text, Text, MyGenericWritable> {
  public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   String line = value.toString();
   
   StringTokenizer st = new StringTokenizer(line, ",");
   while(st.hasMoreElements()) {
    context.write(new Text(st.nextElement().toString()), new MyGenericWritable(new LongWritable(1)));
   }
  }
 }
 
 public static class Map2 extends Mapper<Text, Text, Text, MyGenericWritable> {
  public void map(Text key, Text value, Context context) throws IOException, InterruptedException {
   context.write(key, new MyGenericWritable(new Text("1")));
   context.write(value, new MyGenericWritable(new Text("1")));
  }
 }
 
 public static class Reduce extends Reducer<Text, MyGenericWritable, Text, IntWritable> {
  public void reduce(Text key, Iterable<MyGenericWritable> values, Context context) throws IOException, InterruptedException {
   int count = 0;
   Iterator<MyGenericWritable> it = values.iterator();
   while(it.hasNext()) {
    MyGenericWritable myGw = it.next();
    Writable value = myGw.get();
    if(value instanceof LongWritable) {
     count = count + Long.valueOf(((LongWritable)value).get()).intValue();
    }
    if(value instanceof Text) {
     count = count + Long.valueOf(((Text)value).toString()).intValue();
    }
   }
   context.write(key, new IntWritable(count));
  }
 }
 
 public int run(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
  Configuration conf = this.getConf();
  Job job = new Job(conf);
  job.setJobName(WordCountGenericWritable.class.getSimpleName());
  job.setJarByClass(WordCountGenericWritable.class);
  
  MultipleInputs.addInputPath(job, new Path("hdfs://grid131:9000/text1.txt"), TextInputFormat.class, Map1.class);
  MultipleInputs.addInputPath(job, new Path("hdfs://grid131:9000/text2.txt"), KeyValueTextInputFormat.class, Map2.class);

  
  FileOutputFormat.setOutputPath(job, new Path(args[1]));
  job.setReducerClass(Reduce.class);
  
  job.setOutputFormatClass(TextOutputFormat.class);
  
  //当map的输出类型和reduce的输出类型不一致的时候,需要单独设置map输出类型
  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(MyGenericWritable.class);
  
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  
  job.waitForCompletion(true);
  
  return job.isSuccessful()?0:1;
 }
 
 public static void main(String[] args) throws Exception {
  int exit = ToolRunner.run(new WordCount(), args);
  System.exit(exit);
 }
 
}

class MyGenericWritable extends GenericWritable {

 public MyGenericWritable() {
  
 }
 
 public MyGenericWritable(LongWritable longWritable) {
  super.set(longWritable);
 }
 
 public MyGenericWritable(Text text) {
  super.set(text);
 }
 
 @Override
 protected Class<? extends Writable>[] getTypes() {
  return new Class[]{LongWritable.class, Text.class};
 }
 
}

© 著作权归作者所有

共有 人打赏支持
上一篇: hadoop排序分组
下一篇: NLineInputFormat
Zero零_度
粉丝 69
博文 1253
码字总数 256597
作品 0
程序员
私信 提问
hadoop深入研究:(十一)——序列化与Writable实现

转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/9249411 所有源码在github上,https://github.com/lastsweetop/styhadoop 简介 在hadoop中,Writable的实现类是个庞......

lastsweetop
2013/07/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

没有更多内容

Spring Cloud Greenwich 新特性和F升级分享

2019.01.23 期待已久的Spring Cloud Greenwich 发布了release版本,作为我们团队也第一时间把RC版本替换为release,以下为总结,希望对你使用Spring Cloud Greenwich 有所帮助 Greenwich 只支...

冷冷gg
今天
53
1
精读《论语》读后感作文3600字

精读《论语》读后感作文3600字: 学而篇第一:子曰:“学而时习之,不亦说乎?有朋友自远方来,不亦悦乎?人不知,而不愠,不亦君子乎? 朱熹解:即学而又时时习之,则学者熟,而衷心喜悦,其...

原创小博客
今天
3
0
CPU内存结构

开局一张图 由于CPU频率太快了,为解决直接读取内存的数据上的延迟,在CPU和内存之间,存在3级缓存。 CPU在解决和缓存不一致上采用两种方式: 缓存一致性协议 总线锁机制 CPU CPU的一个时钟周...

春哥大魔王的博客
今天
5
0
记一次centos 7内核升级事故

情景 公司做等保3测评,在进行系统漏洞检测时发现内核存在漏洞,需要进行升级。 名称 版本 升级前内核 CentOS Linux (3.10.0-327.el7.x86_64) 7 (Core) 升级后内核 CentOS Linux (3.10.0-957...

阿dai
今天
9
0
PowerDesigner操作

1.去掉生成DDL里的注释 Database -> Edit Current DBMS -> Script -> Syntax -> BlockComment,去掉BlockComment里面的value内容。...

了凡川
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部