文档章节

csv文件数据批量导入hbase1

 一滴水的眼泪
发布于 2016/04/09 14:49
字数 425
阅读 68
收藏 0
import java.io.IOException;  

import java.text.SimpleDateFormat;  
import java.util.Date;  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.hbase.client.Put;  
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;  
import org.apache.hadoop.hbase.mapreduce.TableReducer;  
import org.apache.hadoop.hbase.util.Bytes;  
import org.apache.hadoop.io.LongWritable;  
import org.apache.hadoop.io.NullWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Counter;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  

public class UptoHBase {

	/**
	 * @param args
	 */
	public static void main(String[] args)  throws java.io.IOException, InterruptedException,ClassNotFoundException{
		// TODO Auto-generated method stub
		 final Configuration configuration = new Configuration();  
	        // 设置zookeeper  
	        //configuration.set("hbase.zookeeper.quorum", "hadoop1");  
	        configuration.set("hbase.zookeeper.quorum", "localhost");
	        
	        // 设置hbase表名称  
	       // configuration.set(TableOutputFormat.OUTPUT_TABLE, "wlan_log");  
	        configuration.set(TableOutputFormat.OUTPUT_TABLE, "testhbase"); 
	  
	        // 将该值改大,防止hbase超时退出  
	        configuration.set("dfs.socket.timeout", "180000");  
	    
	        final Job job = new Job(configuration, "HBaseBatchImport");  
	  
	        job.setMapperClass(BatchImportMapper.class);  
	        job.setReducerClass(BatchImportReducer.class);  
	        // 设置map的输出,不设置reduce的输出类型  
	        job.setMapOutputKeyClass(LongWritable.class);  
	        job.setMapOutputValueClass(Text.class);  
	     
	        job.setInputFormatClass(TextInputFormat.class);  
	        // 不再设置输出路径,而是设置输出格式类型  
	        job.setOutputFormatClass(TableOutputFormat.class);  
	  
	       // FileInputFormat.setInputPaths(job, "hdfs://hadoop1:9000/input");  
	        FileInputFormat.setInputPaths(job, "hdfs://localhost:9000/user/hadoop/testhbase");  
	     
	        job.waitForCompletion(true); 
	}
static class BatchImportMapper extends Mapper<LongWritable, Text, LongWritable, Text> {  
		SimpleDateFormat dateformat1 = new SimpleDateFormat("yyyyMMddHHmmss");  
		Text v2 = new Text();  

		protected void map(LongWritable key, Text value, Context context)  throws java.io.IOException, InterruptedException {  
			//final String[] splited = value.toString().split("\t");  
			final String[] splited = value.toString().split(",");  
			try {  
				final Date date = new Date(Long.parseLong(splited[0].trim()));  
				final String dateFormat = dateformat1.format(date);  
				//String rowKey = splited[1] + ":" + dateFormat; 
				String rowKey = splited[0] ; 
				//第四列的前面一位补充成为 0 凑齐6位数
				/*
				String str="000000";
				splited[3]=str.substring(0,6-splited[3].length())+splited[3];
				String rowKey = splited[0] + splited[1]+splited[2]+splited[3];
				*/
				//v2.set(rowKey + "\t" + value.toString());  
				v2.set(rowKey + "," + value.toString()); 
				context.write(key, v2); 
			} catch (NumberFormatException e) {  
				final Counter counter = context.getCounter("BatchImport","ErrorFormat");  
				counter.increment(1L);  
				System.out.println("出错了" + splited[0] + " " + e.getMessage());  
              }  
		}
 }

static class BatchImportReducer extends TableReducer<LongWritable, Text, NullWritable> {  
	protected void reduce(LongWritable key,java.lang.Iterable<Text> values, Context context) throws java.io.IOException, InterruptedException {  
              for (Text text : values) {  
              // final String[] splited = text.toString().split("\t");  
               final String[] splited = text.toString().split(",");
               final Put put = new Put(Bytes.toBytes(splited[0]));  
                 // put.add(Bytes.toBytes("cf"), Bytes.toBytes("date"), Bytes.toBytes(splited[1]));  
                 put.add(Bytes.toBytes("data"), Bytes.toBytes("h"),Bytes.toBytes(splited[2]));  
                 put.add(Bytes.toBytes("data"), Bytes.toBytes("l"),Bytes.toBytes(splited[3])); 
                  
                  // 省略其他字段,调用put.add(....)即可  
                  context.write(NullWritable.get(), put);  
              }  
	}  
}  
	

}


© 著作权归作者所有

共有 人打赏支持
粉丝 0
博文 2
码字总数 1001
作品 0
武汉
从phpMyAdmin批量导入Excel内容到MySQL

文章作者:姜南(Slyar) 文章来源:Slyar Home (www.slyar.com) 转载请注明,谢谢合作。 之前发了《表达式变量批量替换器 batchSQL》这篇文章,有童鞋说导入数据用phpMyAdmin提供的csv导入功能...

CN.QS
2013/04/24
201
1
Exchange 用户归档邮件导入导出PST操作实例

分享一个之前做过的Exchange邮箱数据文件的导入导出操作示例。目录内容如下: 目录 第一步 新建一个Exchange角色组并将其添加到Mailbox Import Export 管理角色中... 4 第二步 创建共享文件夹...

jialt
2017/08/03
0
0
记一次测试环境Hbase数据备份恢复以及恢复后部分表无法删除的问题处理

一、Hbase数据备份恢复 说明: 因为测试环境要修改hadoop配置文件hdfs-site.xml的参数hdfs.rootdir 修改前的配置 hbase.rootdir hdfs://masters/hbase1 修改后的配置 hbase.rootdir hdfs://m...

断臂人
06/15
0
0
天下数据支招大批量数据导入数据库,dbf导入oracle,csv导入oracle

   Excel 07-2003一个工作表最多可有65536,行最多可有256列;Excel 2007及以后版本,一个工作表最多可有1048576行,16384列。   一、小批量数据处理:   方法一:用excel可以直接打开...

冬眠的包子
2016/03/23
34
0
【临实战】DevOps 也要懂点 Excel

本文涉及一些 Excel 的操作,效果拔群还简单 步骤: 获取 Docker 版本,并生成一个 csv 文件 我们使用 pssh 工具来批量获取信息 这里我直接贴一下命令: 没用过 pssh 可以看我之前的文章:临...

本文涉及一些 Excel 的操作,效果拔群还简单
07/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

vue组件传值之(父子)

⚠️组件的作用域是孤立的,vue解决组件传值问题是通过props ⚠️子传父的时候需要vm.$emit触发实例上的事件,页面需要定一个方法去取值 ⚠️一定要注意命名方式和书写,例如mylChart和myl-c...

peakedness丶
22分钟前
1
0
SpringBoot开发案例之整合Dubbo分布式服务

前言 在 SpringBoot 很火热的时候,阿里巴巴的分布式框架 Dubbo 不知是处于什么考虑,在停更N年之后终于进行维护了。在之前的微服务中,使用的是当当维护的版本 Dubbox,整合方式也是使用的 ...

微笑向暖wx
36分钟前
1
0
TypeScript基础入门之装饰器(二)

转发 TypeScript基础入门之装饰器(二) 装饰器求值 如何应用装饰器应用于类内的各种声明的顺序: 1. 对每个实例成员应用参数装饰器,后跟Method,Accessor或Property Decorators。 2. 对每个静...

durban
37分钟前
1
0
Java程序员年薪40W是什么水平?税前还是税后?

很多人学Java都是冲着Java的高薪来的,那么搞Java的程序员,年薪40W到底是个什么水平呢,本文达妹和大家一起探讨一下。 前几天在论坛看到这么一个问题,搞Java的程序员年薪40w是什么水平?一...

架构师springboot
42分钟前
2
0
区块链100讲:盘点那些常用的加密算法原理

在开发过程中,常常用到各种加密方法和算法,本文总结了几种常用加密方法的原理。 1 对称加密 原理:加密和解密数据使用同一个密钥,适合对大量数据进行加解密 安全性:关键是密钥的保存方式...

HiBlock
56分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部