简介 从数据库性能角度考虑,我们经常需要数字型的自增主键,有时候我们并不想用像MySQL自带的自增,因为从1开始很数据位数不一样,对有点强迫症的人来说,不是很友好。 另外,别人也容易根据...
resources简介 maven的resources默认使用的插件是maven-resources-plugin,主要是用于执行资源文件拷贝。 我们先看一个示例,然后在一一介绍。 <build> <resources> <resource> <dire......
简介 其实一直不太想用Phoenix,因为HBase的设计本身不太适合SQL那一套,否则直接用MySQL就可以了。 不过如果设计得当,不乱使用join、group by等骚操作,使用Phoenix来做二级索引还是不错的...
过滤器 我们我们来看几个常用的过滤器: 过滤器 说明 RowFilter 筛选指定的RowKey FilterList 组合其他过滤器 ValueFilter 筛选指定值的数据 PrefixFilter 筛选有指定前缀的RowKey Qualifie...
简介 在数据统中经常需要统计一些时长数据,例如在线时长,这些数据有些比较好统计,有些稍微麻烦一点,例如,根据登录和退出日志统计用户在线时长。 我们可以利用窗口函数lead与lag来完成,...
@[TOC] Zookeeper集群配置 Kafka重度依赖Zookeeper,所以必须选安装Zookeeper,下面是本机安装简单配置,因为只有一台机器,也没有使用虚拟机,所以使用了不同端口。 详细内容可以参考Zooke...
基本概念 RegionServer HBase的RegionServer就是用来处理客户端读取和写入数据的,和kafka的broker,Elasticsearch的Node的功能相同。 Region Region和kafka的partition(分区),Elasticsear...
简介 lag函数用于把指定列向后移动多少行之后和原表拼接。 lag(column,n,default) lead(column,n,default) 其中 column表示要移动的列,n表示要移动多少行,default表示默认值,不给就是nul...
简介 常规的窗口函数当然没有什么好说的,非常简单,这里介绍一下分组的,重点是分组、排序之后的rows between用法。 关键是理解rows between中关键字含义: 关键字 含义 preceding 往前 fo...
简介 本文会介绍几个hive中关于排序的非常有用的窗口函数,它们可以帮助处理TopN,前N%这类问题, 更酷炫的是,它们还支持分组、排序, 前几不是问题,我们order by也可以解决。但是分组之后...
一、简介 先来一张官网的图片,也许能够帮助我们更好理解Parquet的文件格式和内容。 parquet设计让它更好的压缩比例和更快的过滤速度。 一个File有多个Row Group 一个Row Group有多个Column ...
简介 因为Hive的使用依赖Hadoop,不同的版本之间有很多问题,大的原则上是hive2.x版本对应hadoop2.x版本,hive3.x版本对应hadoop3.x版本。 但是在实际的使用过程中还是有各种兼容问题,具体的...
下载与安装 hive必须依赖hadoop,所以先安装hadoop,可以参考hadoop安装 注意hive一般2.x.x就对应hadoop的2.y.y版本,3.x.x就需要hadoop的3.y.y版本。 hive下载 hive download Hive下载 hive...
准备 要执行Map reduce程序,首先得安装hadoop,hadoop安装可以参考hadoop安装 启动hdfs和yarn start-dfs.cmd start-yarn.cmd 创建待处理数据目录: hadoop fs -mkdir /wc hadoop fs -mkdir ...
简介 有关HBase的安装可以参考hbase安装 我们可以通过hbase shell和hbase数据库进行交互,也可以通过Java-api和hbase数据库交互,这里我们使用的是hbase-client。 主要是介绍2.0重大重构之后...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复