文档章节

hbase批量导入2

 一滴水的眼泪
发布于 2016/04/09 15:00
字数 576
阅读 16
收藏 0

import java.io.IOException;  


import java.text.SimpleDateFormat;  

import java.util.Date;  

import org.apache.hadoop.conf.Configuration;  

import org.apache.hadoop.hbase.client.Put;  

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;  

import org.apache.hadoop.hbase.mapreduce.TableReducer;  

import org.apache.hadoop.hbase.util.Bytes;  

import org.apache.hadoop.io.LongWritable;  

import org.apache.hadoop.io.NullWritable;  

import org.apache.hadoop.io.Text;  

import org.apache.hadoop.mapreduce.Counter;  

import org.apache.hadoop.mapreduce.Job;  

import org.apache.hadoop.mapreduce.Mapper;  

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  


public class UptoHBase {


/**

* @param args

*/

public static void main(String[] args)  throws java.io.IOException, InterruptedException,ClassNotFoundException{

// TODO Auto-generated method stub

final Configuration configuration = new Configuration();  

       // 设置zookeeper  

       //configuration.set("hbase.zookeeper.quorum", "hadoop1");  

       configuration.set("hbase.zookeeper.quorum", "localhost");

       

       // 设置hbase表名称  

      // configuration.set(TableOutputFormat.OUTPUT_TABLE, "wlan_log");  

       //configuration.set(TableOutputFormat.OUTPUT_TABLE, "testhbase"); 

       configuration.set(TableOutputFormat.OUTPUT_TABLE, "Bearing1_1_acc"); 

       // 将该值改大,防止hbase超时退出  

       configuration.set("dfs.socket.timeout", "180000");  

   

       final Job job = new Job(configuration, "HBaseBatchImport");  

 

       job.setMapperClass(BatchImportMapper.class);  

       job.setReducerClass(BatchImportReducer.class);  

       // 设置map的输出,不设置reduce的输出类型  

       job.setMapOutputKeyClass(LongWritable.class);  

       job.setMapOutputValueClass(Text.class);  

    

       job.setInputFormatClass(TextInputFormat.class);  

       // 不再设置输出路径,而是设置输出格式类型  

       job.setOutputFormatClass(TableOutputFormat.class);  

 

      // FileInputFormat.setInputPaths(job, "hdfs://hadoop1:9000/input");  

      // FileInputFormat.setInputPaths(job, "hdfs://localhost:9000/user/hadoop/testhbase");  

       FileInputFormat.setInputPaths(job, "hdfs://localhost:9000/user/hadoop/Bearing1_1_acc"); 

       job.waitForCompletion(true); 

}

static class BatchImportMapper extends Mapper<LongWritable, Text, LongWritable, Text> {  

Text v2 = new Text();  


protected void map(LongWritable key, Text value, Context context)  throws java.io.IOException, InterruptedException {  

//final String[] splited = value.toString().split("\t");  

final String[] splited = value.toString().split(",");

//System.out.println("%%%%%%%%%%%%"+splited[3]);

try {  

//String rowKey = splited[1] + ":" + dateFormat; 

//String rowKey = splited[0] ; 

//第四列的前面一位补充成为 0 凑齐6位数

String str0="00";

splited[0]=str0.substring(0,2-splited[0].length())+splited[0];

//System.out.println("%%%%%%%%%%%%"+splited[0]);

String str1="00";

splited[1]=str1.substring(0,2-splited[1].length())+splited[1];

//System.out.println(".............."+splited[1]);

String str2="00";

splited[2]=str2.substring(0,2-splited[2].length())+splited[2];

//System.out.println(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>"+splited[2]);

String str3="00000000000";

splited[3]=str3.substring(0,11-splited[3].length())+splited[3];

//System.out.println("%%%%%%%%%%%%"+splited[3]);

String rowKey = splited[0]+splited[1]+splited[2]+splited[3];

 

v2.set(rowKey + "," + value.toString()); 

//System.out.println("#####################" + key);

System.out.println("^^^^^^^^^^^^^^^^^^^" + rowKey);

//System.out.println(">>>>>>>>>>>>>>" + value.toString());

context.write(key, v2); 

} catch (NumberFormatException e) {  

final Counter counter = context.getCounter("BatchImport","ErrorFormat");  

counter.increment(1L);  

System.out.println("出错了" + splited[0] + " " + e.getMessage());  

              }  

}

 }


static class BatchImportReducer extends TableReducer<LongWritable, Text, NullWritable> {  

protected void reduce(LongWritable key,java.lang.Iterable<Text> values, Context context) throws java.io.IOException, InterruptedException {  

              for (Text text : values) {  

              // final String[] splited = text.toString().split("\t");  

               final String[] splited = text.toString().split(",");

               final Put put = new Put(Bytes.toBytes(splited[0]));  

                 // put.add(Bytes.toBytes("cf"), Bytes.toBytes("date"), Bytes.toBytes(splited[1]));  

                 //put.add(Bytes.toBytes("data"), Bytes.toBytes("h"),Bytes.toBytes(splited[2]));  

                 //put.add(Bytes.toBytes("data"), Bytes.toBytes("l"),Bytes.toBytes(splited[3])); 

                 put.add(Bytes.toBytes("data"), Bytes.toBytes("h"),Bytes.toBytes(splited[5]));  

                 put.add(Bytes.toBytes("data"), Bytes.toBytes("l"),Bytes.toBytes(splited[6]));  

                  // 省略其他字段,调用put.add(....)即可  

                  context.write(NullWritable.get(), put);  

              }  

}  

}

下面截图反应的就是一次性导入2000+csv文件时的错误,扫描表时出现的


© 著作权归作者所有

共有 人打赏支持
粉丝 0
博文 2
码字总数 1001
作品 0
武汉
sqoop从关系型数据库导数据到hdfs和hbase上

本人最近弄了些sqoop导数据方法和命令,关于批量导入和一般导入,在本机器上linux环境运行正常; (一)Oracle导入到hdfs上 sqoop import --connect jdbc:oracle:thin:@ip:端口号:databaseNa...

可爱的ZLZLZL
2012/12/20
0
0
使用hive读取hbase数据

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类...

凡16
2013/12/13
0
0
Sqoop数据导入到HBase遇上的问题及解决方法

  【IT168 技术】运行bin/sqoop import --connect jdbc:mysql://ip:port/database --username * --password **--hbase-bulkload --hbase-create-table --column-family info --hbase-row-k......

中国大数据
05/31
0
0
hadoop执行分布式Process

要把N个超级大表导入HBase,N是按月来分的,表:亿+的行数,100+的字段。测试过sqoop,JDBC,性能都不满意,对任务失败重做也很麻烦,HBase的批量导出还靠谱点,但这样导入HBase有几个麻烦的...

nubo
2012/08/31
0
8
hive与hbase数据交互的详解指南 | ApacheCN(apache中文网)

HBase和Hive的集成原理 ApacheCN | apache中文网 Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟...

片刻
2014/06/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

OSChina 周三乱弹 —— 我居然在 osc 里追剧

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @舆情风控小组 :分享王菲的单曲《笑忘书》 《笑忘书》- 王菲 手机党少年们想听歌,请使劲儿戳(这里) @艾尔库鲁斯:如果给大家一个选择的机...

小小编辑
38分钟前
45
4
rabbitMq的客户端使用笔记

1、channel声明队列的queueDeclare方法的参数解析 durable: 是否持久化, 队列的声明默认是存放到内存中的,如果rabbitmq重启会丢失,如果想重启之后还存在就要使队列持久化,保存到Erlang自...

DemonsI
46分钟前
0
0
“全新” 编程语言 Julia开箱体验

本文共 851字,阅读大约需要 3分钟 ! 概 述 Julia 是一个 “全新”的高性能动态编程语言,前两天迎来了其 1.0 正式版的重大更新。Julia集 Python、C、R、Ruby 之所长,感觉就像一种脚本语言...

CodeSheep
今天
11
0
软件自动化测试初学者忠告

题外话 测试入门 很多受过高等教育的大学生经常问要不要去报测试培训班来入门测试。 答案是否。 高等教育的合格毕业生要具备自学能力,如果你不具备自学能力,要好好地反省一下,为什么自己受...

python测试开发人工智能安全
今天
5
0
java并发备忘

不安全的“先检查后执行”,代码形式如下: if(条件满足){ //这里容易出现线程安全问题//doSomething}else{//doOther} 读取-修改-写入 原子操作:使用CAS技术,即首先从V中读取...

Funcy1122
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部