加载中
简洁自增ID实现方案

简介 从数据库性能角度考虑,我们经常需要数字型的自增主键,有时候我们并不想用像MySQL自带的自增,因为从1开始很数据位数不一样,对有点强迫症的人来说,不是很友好。 另外,别人也容易根据...

2022/12/04 17:20
148
maven resources与配置分离

resources简介 maven的resources默认使用的插件是maven-resources-plugin,主要是用于执行资源文件拷贝。 我们先看一个示例,然后在一一介绍。 <build> <resources> <resource> <dire......

2022/08/11 13:45
101
Phoenix基本使用与常见的问题

简介 其实一直不太想用Phoenix,因为HBase的设计本身不太适合SQL那一套,否则直接用MySQL就可以了。 不过如果设计得当,不乱使用join、group by等骚操作,使用Phoenix来做二级索引还是不错的...

2020/10/28 18:58
781
HBase过滤器

过滤器 我们我们来看几个常用的过滤器: 过滤器 说明 RowFilter 筛选指定的RowKey FilterList 组合其他过滤器 ValueFilter 筛选指定值的数据 PrefixFilter 筛选有指定前缀的RowKey Qualifie...

2020/07/29 10:14
360
灵活利用Spark窗口函数lead、lag进行在线时长统计

简介 在数据统中经常需要统计一些时长数据,例如在线时长,这些数据有些比较好统计,有些稍微麻烦一点,例如,根据登录和退出日志统计用户在线时长。 我们可以利用窗口函数lead与lag来完成,...

2020/06/10 10:19
3.7K
Kafka集群、目录与工具

@[TOC] Zookeeper集群配置 Kafka重度依赖Zookeeper,所以必须选安装Zookeeper,下面是本机安装简单配置,因为只有一台机器,也没有使用虚拟机,所以使用了不同端口。 详细内容可以参考Zooke...

2020/05/26 19:34
861
hbase数据存储与查找原理

基本概念 RegionServer HBase的RegionServer就是用来处理客户端读取和写入数据的,和kafka的broker,Elasticsearch的Node的功能相同。 Region Region和kafka的partition(分区),Elasticsear...

2020/03/13 19:47
470
hive窗口函数lag与lead实际应用

简介 lag函数用于把指定列向后移动多少行之后和原表拼接。 lag(column,n,default) lead(column,n,default) 其中 column表示要移动的列,n表示要移动多少行,default表示默认值,不给就是nul...

Hive几个常见窗口函数分组控制

简介 常规的窗口函数当然没有什么好说的,非常简单,这里介绍一下分组的,重点是分组、排序之后的rows between用法。 关键是理解rows between中关键字含义: 关键字 含义 preceding 往前 fo...

2020/01/09 08:52
488
Hive常用的几个关于分组排序的窗口函数

简介 本文会介绍几个hive中关于排序的非常有用的窗口函数,它们可以帮助处理TopN,前N%这类问题, 更酷炫的是,它们还支持分组、排序, 前几不是问题,我们order by也可以解决。但是分组之后...

2020/01/09 08:49
6.7K
几个hvie常用函数

几个hvie常用函数 cast cast(value as type) # 将int类型的id转化为了String类型 cast(id as string) cast将某个列的值显示的转化为某个类型,一般大类型转换为小类型才需要强制,因为是有数...

2019/12/06 18:23
104
Parquet文件读写与合并小Parquet文件

一、简介 先来一张官网的图片,也许能够帮助我们更好理解Parquet的文件格式和内容。 parquet设计让它更好的压缩比例和更快的过滤速度。 一个File有多个Row Group 一个Row Group有多个Column ...

2019/11/05 08:44
6.5K
Hive工具、数据模型、Java API与常见问题

简介 因为Hive的使用依赖Hadoop,不同的版本之间有很多问题,大的原则上是hive2.x版本对应hadoop2.x版本,hive3.x版本对应hadoop3.x版本。 但是在实际的使用过程中还是有各种兼容问题,具体的...

2019/07/05 08:19
971
Windows下安装Hive与问题

下载与安装 hive必须依赖hadoop,所以先安装hadoop,可以参考hadoop安装 注意hive一般2.x.x就对应hadoop的2.y.y版本,3.x.x就需要hadoop的3.y.y版本。 hive下载 hive download Hive下载 hive...

从WordCount看hadoop执行流程

准备 要执行Map reduce程序,首先得安装hadoop,hadoop安装可以参考hadoop安装 启动hdfs和yarn start-dfs.cmd start-yarn.cmd 创建待处理数据目录: hadoop fs -mkdir /wc hadoop fs -mkdir ...

HBase基本命令与新版本Java API

简介 有关HBase的安装可以参考hbase安装 我们可以通过hbase shell和hbase数据库进行交互,也可以通过Java-api和hbase数据库交互,这里我们使用的是hbase-client。 主要是介绍2.0重大重构之后...

2019/06/25 19:59
3.8K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部