加载中
Phoenix基本使用与常见的问题

简介 其实一直不太想用Phoenix,因为HBase的设计本身不太适合SQL那一套,否则直接用MySQL就可以了。 不过如果设计得当,不乱使用join、group by等骚操作,使用Phoenix来做二级索引还是不错的...

2020/10/28 18:58
676
HBase过滤器

过滤器 我们我们来看几个常用的过滤器: 过滤器 说明 RowFilter 筛选指定的RowKey FilterList 组合其他过滤器 ValueFilter 筛选指定值的数据 PrefixFilter 筛选有指定前缀的RowKey Qualifie...

2020/07/29 10:14
300
HBase自定义Comparator过滤数值

简介 要自定义HBase的Comparator,需要使用到protoc,可以在下面的链接下载: protoc新版本下载 protoc2.5版本下载 完整的工程你可以在下面的链接下载: HBase自定义Comparator实例 proto文件...

2020/07/27 13:56
158
灵活利用Spark窗口函数lead、lag进行在线时长统计

简介 在数据统中经常需要统计一些时长数据,例如在线时长,这些数据有些比较好统计,有些稍微麻烦一点,例如,根据登录和退出日志统计用户在线时长。 我们可以利用窗口函数lead与lag来完成,...

2020/06/10 10:19
2.6K
kafka重要概念与集群重点配置详解

重要概念 broker 一个broker就是一个kafka实例,负责接收、转发、存储消息,kafka集群就是由多个broker组成。 topic kafka的topic是一个逻辑概念,就是对消息分组、分类,便于区分处理不同业...

2020/05/27 19:33
577
Kafka集群、目录与工具

@[TOC] Zookeeper集群配置 Kafka重度依赖Zookeeper,所以必须选安装Zookeeper,下面是本机安装简单配置,因为只有一台机器,也没有使用虚拟机,所以使用了不同端口。 详细内容可以参考Zooke...

2020/05/26 19:34
552
hbase数据存储与查找原理

基本概念 RegionServer HBase的RegionServer就是用来处理客户端读取和写入数据的,和kafka的broker,Elasticsearch的Node的功能相同。 Region Region和kafka的partition(分区),Elasticsear...

2020/03/13 19:47
409
hive窗口函数lag与lead实际应用

简介 lag函数用于把指定列向后移动多少行之后和原表拼接。 lag(column,n,default) lead(column,n,default) 其中 column表示要移动的列,n表示要移动多少行,default表示默认值,不给就是nul...

Hive几个常见窗口函数分组控制

简介 常规的窗口函数当然没有什么好说的,非常简单,这里介绍一下分组的,重点是分组、排序之后的rows between用法。 关键是理解rows between中关键字含义: 关键字 含义 preceding 往前 fo...

2020/01/09 08:52
416
Hive常用的几个关于分组排序的窗口函数

简介 本文会介绍几个hive中关于排序的非常有用的窗口函数,它们可以帮助处理TopN,前N%这类问题, 更酷炫的是,它们还支持分组、排序, 前几不是问题,我们order by也可以解决。但是分组之后...

2020/01/09 08:49
5.6K
几个hvie常用函数

几个hvie常用函数 cast cast(value as type) 将int类型的id转化为了String类型 cast(id as string) cast将某个列的值显示的转化为某个类型,一般大类型转换为小类型才需要强制,因为是有数据...

2019/12/06 18:23
51
Parquet文件读写与合并小Parquet文件

一、简介 先来一张官网的图片,也许能够帮助我们更好理解Parquet的文件格式和内容。 parquet设计让它更好的压缩比例和更快的过滤速度。 一个File有多个Row Group 一个Row Group有多个Column ...

2019/11/05 08:44
5.8K
Hive工具、数据模型、Java API与常见问题

简介 因为Hive的使用依赖Hadoop,不同的版本之间有很多问题,大的原则上是hive2.x版本对应hadoop2.x版本,hive3.x版本对应hadoop3.x版本。 但是在实际的使用过程中还是有各种兼容问题,具体的...

2019/07/05 08:19
823
Windows下安装Hive与问题

下载与安装 hive必须依赖hadoop,所以先安装hadoop,可以参考hadoop安装 注意hive一般2.x.x就对应hadoop的2.y.y版本,3.x.x就需要hadoop的3.y.y版本。 hive下载 hive download Hive下载 hive...

从WordCount看hadoop执行流程

准备 要执行Map reduce程序,首先得安装hadoop,hadoop安装可以参考hadoop安装 启动hdfs和yarn start-dfs.cmd start-yarn.cmd 创建待处理数据目录: hadoop fs -mkdir /wc hadoop fs -mkdir ...

Spark RDD算子、分区与Shuffle

RDD Spark的主要抽象是分布式的元素集合(distributed collection of items),称为RDD(Resilient Distributed Dataset,弹性分布式数据集) 它可被分发到集群各个节点上,进行并行操作。RDD可以...

2019/07/04 08:16
1.8K
Spark安装与基本使用

简介 Spark是专为大规模数据处理而设计的快速通用的计算引擎,第一次看到这句话估计会比较抽象。其实可以和MySQL数据库类比。 只不过侧重点不同,MySQL的侧重点在数据存储和查询,Spark的侧重...

2019/07/02 08:35
1.1K
HBase基本命令与新版本Java API

简介 有关HBase的安装可以参考hbase安装 我们可以通过hbase shell和hbase数据库进行交互,也可以通过Java-api和hbase数据库交互,这里我们使用的是hbase-client。 主要是介绍2.0重大重构之后...

2019/06/25 19:59
3.4K
Windows HBase2.2.0安装部署踩坑

下载安装 hbase下载 解压之后根目录,没有什么要修改的。 配置文件目录,主要修改hbase-env.cmd和hbase-site.xml hbase-env.cmd set HBASE_MANAGES_ZK=true set JAVA_HOME=C:\Program Files...

2019/06/25 19:36
4.8K
hadoop初遇爬坑

下载 在下面的地址下载字节需要的版本,如果是windows下建议先下载hadoop windows工具包看一下现在支持哪些版本,然后选择对应的hadoop版本。 hadoop下载 hadoop windows工具包 下载完之后解...

2019/06/05 08:27
1.6K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部