加载中
Python编写Hive UDF

1. 目的 从string类型的字段中解析并汇总每种category类型的总amount 2. 素材 表名:test_table order_no hotel_seq discount_detail D8662EF4E 10212527 NULL 45C024849 ......

2018/11/09 18:06
21
sparkMLlib数据归一化方法

0 数据准备 import org.apache.spark.ml.linalg.Vectors val dataFrame = spark.createDataFrame(Seq( (0, Vectors.dense(1.0, 0.5, -1.0)), (1, Vectors.dense(2.0, 1.0, 1.0)), (2, Vector...

2018/10/26 17:56
44
SparkMLlib Kmeans客户细分

第一章 概述 1.1 Kmeans原理 首先区分分类与聚类,其中输入数据拥有类别标签,通过对已知类别的训练,找到不同类别的数据特性从而形成分类模型。再使用模型对未分类的数据进行分类的属于分类...

2018/10/24 11:15
12
Phoenix二级索引使用

1.添加二级索引配置 为使用Phoenix二级索引,需要开启HBase regionServer相关参数配置 <property> <name>hbase.regionserver.wal.codec</name> <value>org.apache.hadoop.hbase.regionserver...

2018/08/28 16:06
177
Phoenix基本优化方法

1. SALT_BUCKETS HBASE建表之初默认一个region,当写入数据超过region分裂阈值时才会触发region分裂。我们可以通过SALT_BUCKETS方法加盐,在表构建之初就对表进行预分区。SALT_BUCKETS值的范...

HBase数据导入导出(export import)

1.export 1> 执行导出命令 可使用-D命令自定义参数,此处限定表名、列族、开始结束RowKey、以及导出到HDFS的目录 hbase org.apache.hadoop.hbase.mapreduce.Export -D hbase.mapreduce.scan...

2018/08/23 20:47
184
Hive整合映射HBase

1.整合操作 hive整合hbase实际上是为用户提供一种sqlOnHbase的方法。Hive和HBase通过接口互通,用户可以方便地通过SQL接口进行建表、映射表、查询、删除等操作。由于对于hiveOnHbase表的查询...

2018/08/23 16:33
65
Phoenix基础性能测试

1.写入性能 测试用户表在无索引、全局索引、本地索引三种情况下,插入数据的效率。无索引情况下数据插入最快,有索引情况下本地索引写入优于全局索引。 TABLE TESTA: #建表 CREATE TABLE t...

2018/08/20 19:46
267
CDH5.11整合phoenix4.7

一、环境准备 1.CDH环境 LinuxOS CentOS6.7 Hadoop 2.6.0+cdh5.11.1+2400 Zookeeper 3.4.5+cdh5.11.1+111 Hive 1.1.0+cdh5.11.1+1041 HBase 1.2.0+cdh5.11.1+319 2.素材获取 进入Cloudera官网...

2018/08/15 13:10
120
KYLIN优化方式详解

一、概述 1.优化方式 随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置...

2018/08/13 18:11
36
KYLIN立方体构建详解

一、环境准备 1.CDH环境 Hadoop 2.6.0+cdh5.11.1+2400 Zookeeper 3.4.5+cdh5.11.1+111 Hive 1.1.0+cdh5.11.1+1041 HBase 1.2.0+cdh5.11.1+319 Kylin apache-kylin-2.4.0-bin-cdh57 2.hive环境...

2018/08/10 18:08
145
hive使用collect与explode

一、多行转单行 样例:表test存储了以下数据 hotel search id poi 90663029 5 15306667 巫山县教委关心下一代工作委员会 90663029 2 15381967 ......

2018/07/25 18:06
78
map任务数配置

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的...

NameNode HA的实现原理

1. NameNode HA架构概述 实现架构: 组件描述: Active NN和Standby NN:两台 NameNode 形成互备,一台处于 Active 状态,另外一台处于 Standby 状态,只有主 NameNode 才能对外提供读写服务...

hadoop平台优化

1. HDFS优化 1.1 卷选择策略 卷选择策略有两种: 第一种为集群默认的卷轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java 第二种为卷可用空间优先方式,实现类:AvailableSpaceVolumeC...

spark优化总结

1. RDD 1.1 RDD持久化 对多次使用的RDD进行持久化。此时Spark就会根据你的持久化策略,将RDD中的数据保存到内存或者磁盘中。以后每次对这个RDD进行算子操作时,都会直接从内存或磁盘中提取持...

2017/10/22 13:12
30
sparkStreaming SQL黑名单过滤

1.目的 在线过滤掉黑名单的点击,防止刷点击刷评分刷票数等行为 2.素材 1)mysql建立blacklist表 mysql> select * from blacklist; +--------+--------+ | name | status | +--------+-...

sparkSQL UDF创建

1.目的 定义并使用sparkSQL UDF函数 2.元素 val product_order=Array( ("20170909,tom"), ("20170909,jack") , ("20170909,tom"), ("20170910,tony") ) 3.脚本 /** * Created by p...

2017/09/26 17:51
37
sparkSQL dataframe编程创建

1.目的 RDD通过编程方式转换为dataframe 2.素材 text1.txt 1 tom 2 jack friend 2 jack 3 sala friend 3 sala 1 tom friend 4 joy 1 tom friend 1 tom 4 joy friend 1 tom 4 joy friend 2 ja...

2017/09/26 11:05
10
CDH5.12整合Kylin2.1

1. 获取安装包 http://kylin.apache.org/download/ 下载:apache-kylin-2.1.0-bin-cdh57.tar.gz 上传:/opt 解压:tar zxvf apache-kylin-2.1.0-bin-cdh57.tar.gz 2. 配置环境变量 vi /etc/...

2017/09/20 15:11
103

没有更多内容

加载失败,请刷新页面

返回顶部
顶部