加载中
Hadoop环境离线安装

1. 软件下载 在离线安装服务器前,需要在内网搭建一台HTTP服务器,以供安装相应的软件。软件需要提前下载到本地,这里不再赘述如何下载。 1.1. Linux安装包 CentOS下载地址:http://isoredir...

2014/06/22 09:54
159
Hive -f 封装支持传参数

需求 }Hive -f }hiveF 封装hive –f aa.sql }支持传任意多个参数,实现shell脚本和sql文件的分离 }Java 类名 *.sql -date “2013-01-01” …. 分析 对一下sql中的分区字段${date} 进行hiveF...

2014/05/28 14:29
421
MapReduce知识点详解二

序列化概念 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 Java序列化(java.io.Serializabl) Hadoop...

2014/05/19 11:53
143
MapReduce知识点详解

了解计数器 hadoop计数器:可以让开发人员以全局的视角来审查程序的运行情况以及各项指标,及时做出错误诊断并进行相应处理。 内置计数器(MapReduce相关、文件系统相关和作业调度相关) 也可...

2014/05/19 00:25
4.1K
Hive详细教程

 为什么选择Hive? 基于Hadoop的大数据的计算/扩展能力 支持SQL like查询语言 统一的元数据管理 简单编程 Hive的安装 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,...

2014/04/29 00:02
30.5K
hadoop中RPC通信文件上传原理

//APP2中调用的代码 public static final String HDFS_PATH = "hdfs://hadoop:9000/hello";   public static final String DIR_PATH = "/d1000";   public static final Strin...

2014/04/15 02:36
1K
maven项目使用java.lang.ClassNotFoundException

eclispe中的maven项目使用报java.lang.ClassNotFoundException: org.springframework.web.c 1. Add maven dependencies Right click the web project “properties” -------> click the “D...

2014/06/22 22:43
64
hadoop运维案例分享

1、Namenode岩机处理:重启集群无法恢复的情况下 一般NameNode情况下是不会岩机的,但如果出现违规操作,如突然断电等就会造成NameNode镜像文件的损坏,重启就起不来了。hdoop1的一个设计不好...

2014/06/09 19:16
113
UDF和UDAF开发

在实际开发中,比如对一个url 字符串的截取,通常不会直接使用hive 的自带函数硬编码到代码中。 所以通常使用自定义函数进行开发,降低代码耦合。利用后期更改! UDF自定义函数 自定义函数包括...

2014/05/27 20:58
2.4K
hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,...

2014/05/27 12:28
86
Hive动态分区详解

设置如下参数开启动态分区: hive.exec.dynamic.partition=true 默认值:false 描述:是否允许动态分区 hive.exec.dynamic.partition.mode=nonstrict 默认值:strict 描述:strict是避免全分...

2014/05/27 12:27
279
避免hive笛卡尔积

(特别要注意笛卡尔积的产生) 业务中需要的是 比如: (要出前台报表展现) 省份 用户总数 活跃总数 订购总数 表1:省份---用户表 表2:省份---活跃表 表3:省份---订购表 理论上:都是三张表...

2014/05/27 12:24
463
Hbase 表设计

HBase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加...

2014/05/10 14:13
283
Hive作业优化总结

  一、Hadoop 计算框架的特性 1、什么是数据倾斜? •由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 2、Hadoop框架的特性 •不怕数据大,怕数据倾斜。 •jobs数比较多...

2014/05/10 11:19
795
Hive-Hbase整合

整合官方文档:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 准备 1.把${hive_home}/lib/hive-hbase-handler-0.9.0.jar cp到hbase/lib 下(注意:如果是集群的话每一个...

2014/05/09 15:26
203
Pig笔记

1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。 2.Pig的数据处理语言是数据流方式的,类似于...

2014/04/28 01:36
82
Hbase结合MapReduce的批量导入

对以下手机流量信息进行模拟导入,放置到HDFS文件系统input文件夹下 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995...

2014/04/28 00:59
4.1K
Hbase的java_API操作

package Hbase; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.H...

2014/04/28 00:22
79
JSP语法之八大隐式对象

JSP是具有HTTP请求能力的web页面,而JSP内置对象建立在JSP功能上的抽象,抽象是对事务共性的封装,任何一个JSP页面中都包含有输出、请求、回应、上下文以及异常处理等。 JSP提供8种内置对象:...

2014/04/23 17:07
87
MapReduce项目应用之 处理手机通信流量统计

模拟元数据如下 HTTP_20130313143750.dat 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C...

2014/04/22 20:42
221

没有更多内容

加载失败,请刷新页面

返回顶部
顶部