文档章节

GenericWritable

Zero零_度
 Zero零_度
发布于 2015/01/11 19:43
字数 418
阅读 84
收藏 0

package com.test;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.GenericWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 业务场景:
 * 含有两个文件,两个文件中单词之间的分隔方式不一样,但是统计出单词在两个文件中公共出现的次数

 *
 * 文件来源1,逗号分隔text1.txt
 *  hello,what
 *  you,haha
 * 文件来源2,制表符分隔text2.txt
 * girl boy
 * father mother
 */
public class WordCountGenericWritable extends Configured implements Tool {
 
 public static class Map1 extends Mapper<LongWritable, Text, Text, MyGenericWritable> {
  public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   String line = value.toString();
   
   StringTokenizer st = new StringTokenizer(line, ",");
   while(st.hasMoreElements()) {
    context.write(new Text(st.nextElement().toString()), new MyGenericWritable(new LongWritable(1)));
   }
  }
 }
 
 public static class Map2 extends Mapper<Text, Text, Text, MyGenericWritable> {
  public void map(Text key, Text value, Context context) throws IOException, InterruptedException {
   context.write(key, new MyGenericWritable(new Text("1")));
   context.write(value, new MyGenericWritable(new Text("1")));
  }
 }
 
 public static class Reduce extends Reducer<Text, MyGenericWritable, Text, IntWritable> {
  public void reduce(Text key, Iterable<MyGenericWritable> values, Context context) throws IOException, InterruptedException {
   int count = 0;
   Iterator<MyGenericWritable> it = values.iterator();
   while(it.hasNext()) {
    MyGenericWritable myGw = it.next();
    Writable value = myGw.get();
    if(value instanceof LongWritable) {
     count = count + Long.valueOf(((LongWritable)value).get()).intValue();
    }
    if(value instanceof Text) {
     count = count + Long.valueOf(((Text)value).toString()).intValue();
    }
   }
   context.write(key, new IntWritable(count));
  }
 }
 
 public int run(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
  Configuration conf = this.getConf();
  Job job = new Job(conf);
  job.setJobName(WordCountGenericWritable.class.getSimpleName());
  job.setJarByClass(WordCountGenericWritable.class);
  
  MultipleInputs.addInputPath(job, new Path("hdfs://grid131:9000/text1.txt"), TextInputFormat.class, Map1.class);
  MultipleInputs.addInputPath(job, new Path("hdfs://grid131:9000/text2.txt"), KeyValueTextInputFormat.class, Map2.class);

  
  FileOutputFormat.setOutputPath(job, new Path(args[1]));
  job.setReducerClass(Reduce.class);
  
  job.setOutputFormatClass(TextOutputFormat.class);
  
  //当map的输出类型和reduce的输出类型不一致的时候,需要单独设置map输出类型
  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(MyGenericWritable.class);
  
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  
  job.waitForCompletion(true);
  
  return job.isSuccessful()?0:1;
 }
 
 public static void main(String[] args) throws Exception {
  int exit = ToolRunner.run(new WordCount(), args);
  System.exit(exit);
 }
 
}

class MyGenericWritable extends GenericWritable {

 public MyGenericWritable() {
  
 }
 
 public MyGenericWritable(LongWritable longWritable) {
  super.set(longWritable);
 }
 
 public MyGenericWritable(Text text) {
  super.set(text);
 }
 
 @Override
 protected Class<? extends Writable>[] getTypes() {
  return new Class[]{LongWritable.class, Text.class};
 }
 
}

© 著作权归作者所有

共有 人打赏支持
Zero零_度
粉丝 67
博文 1245
码字总数 252866
作品 0
程序员
hadoop深入研究:(十一)——序列化与Writable实现

转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/9249411 所有源码在github上,https://github.com/lastsweetop/styhadoop 简介 在hadoop中,Writable的实现类是个庞......

lastsweetop
2013/07/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多
Mybatis中jdbcType和javaType的对应关系 

Mybatis中jdbcType和javaType的对应关系 1 JDBC Type Java Type 2 CHAR String 3 VARCHAR String 4 LONGVARCHAR String 5 NUMERIC java.math.BigDecimal 6 DECIMAL java.math.BigDecimal 7 ......

DemonsI
30分钟前
3
0
Python中字符串和datetime

遇到的问题: 今天在写一个爬虫时,需要将今天的数据和昨天、一周前的数据做比较。所以就需要一个方法可以方便的计算出指定日期的前几天的日期。比如10月3号,则一周前的日期是9月26号。 问题...

akane_oimo
32分钟前
1
0
企业级 SpringBoot 教程 (四)SpringBoot 整合JPA

JPA全称Java Persistence API.JPA通过JDK 5.0注解或XML描述对象-关系表的映射关系,并将运行期的实体对象持久化到数据库中。 JPA 的目标之一是制定一个可以由很多供应商实现的API,并且开发...

itcloud
33分钟前
2
0
白话SpringCloud | 第六章:Hystrix监控面板及数据聚合(Turbine)

前言 前面一章,我们讲解了如何整合Hystrix。而在实际情况下,使用了Hystrix的同时,还会对其进行实时的数据监控,反馈各类指标数据。今天我们就将讲解下Hystrix Dashboard和Turbine.其中Hys...

oKong
44分钟前
2
0
Java JDK 11:现在可以使用所有新功能

删除了CORBA,Java EE和JavaFX支持,但添加了十几个主要新功能 目录 哪里可以下载JDK 11 Java 11 JDK中的新功能 从Java JDK 11中删除了什么 Java Development Kit(JDK)11现已普遍可用,可供...

GuoMengyue
45分钟前
13
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部