加载中
编程语言和基础

编程语言和基础 java基础相关 https://my.oschina.net/u/2969788/blog/4287650

05/23 15:58
31
hdfs及MapReduce相关文章

hdfs及MapReduce相关文章 hdfs 文件存储格式https://my.oschina.net/u/2969788/blog/2875351 hdfs 块(block) 大小的影响https://my.oschina.net/u/2969788/blog/2873733 mapreduce执行过程概...

spark相关文章

spark相关文章 spark 重新分区 repartition和coalescehttps://my.oschina.net/u/2969788/blog/2875636 spark的宽依赖和窄依赖https://my.oschina.net/u/2969788/blog/2870446 spark原理和概念...

hive相关文章

hive相关文章 hive存储格式和表类型,分区分桶https://my.oschina.net/u/2969788/blog/1615049 Hive中order by,sort by,distribute by,cluster by的区别https://my.oschina.net/u/2969788/...

2018/11/13 18:17
30
数据仓库理论相关文章

数据仓库理论相关文章 数据仓库的设计https://my.oschina.net/u/2969788/blog/1611973 OLTP和OLAP 在线事务处理和在线分析处理https://my.oschina.net/u/2969788/blog/2875200 数据立方体常见...

2018/11/13 18:13
68
spark 内存管理总结

spark 内存管理总结 spark内存分为 on-heap和off-heap,堆内内存和堆外内存 堆外内存,会把数据序列化之后写入jvm内存之外,但是需要单独编码申请资源和释放资源一般不怎么样用 堆内内存,在jvm...

hdfs上传/下载文件过程详解

hdfs上传文件过程详解 client端通知namenode要上传文件,namenode检查文件名是否已经存在,如果不存在通知可以上传,并且返回可以用于存储的datanode列表 client 切割文件为block块(默认大小128...

数仓理论SCD(缓慢变化维度)

数仓理论SCD(缓慢变化维度) SCD(缓慢变化维):就是说 维度表是会发生变化的比如说用户资料表,用户会新增也会被注销(或者不在活跃),行政区划维度表也会发生变化,国家成立了雄安新区保定的行政区...

java 基础汇总

java 基础 面向对象多态 补充一句,面向对象编程的三大特征,封装,继承,多态. 多态:同一个对象在不同运行环境表现出不同的特点(功能),这种被称为多态.java 代码定义的对象在编程时并不能确定而...

05/22 17:15
44
hive join 操作解析过程

hive join 操作解析过程 解析结果

05/18 17:54
35
Spark 任务提交运行基本概念

Spark 任务提交运行基本概念 基本概念 application:整个spark应用程序 driver:相当于驱动节点,负责资源申请,任务分配和监控,也即是运行main函数所在进程的节点,main函数中会创建 Sparkconte...

05/17 18:32
59
spark shuffleManager学习记录

spark shufflemananger hashShuffleManager spark1.2之后已经废弃了,除了面试官会问问没啥用,以前可以配置选择shuffleManager的具体实现,现在已经全部默认SortShuffleManager SortShuffleMan...

05/15 15:40
25
hive join的一个小问题

hive join的一个小问题 最近在看公司代码发现一个和join相关的奇怪的写法 抽象一下表结构如下 为了简化问题,这里就用这张示例表演示 写法一 写法二 写法一 明细是想要缩小join表的范围,减少关...

2019/08/21 18:05
44
spark join和union+reducebykey 对比

spark join和union+reducebykey 对比 对于某些聚合需求可以用union+reducebykey的方式替换join,join将会做两个表的连接操作比较消耗新能,union+reducebykey,可以在map的端进行预聚合,然后再r...

2019/08/20 11:19
95
Linux 常用命令

Linux 常用命令 文件表达式 -e filename 如果 filename存在,则为真 -d filename 如果 filename为目录,则为真 -f filename 如果 filename为常规文件,则为真 -L filename 如果 filename为符...

2019/08/20 10:52
18
电信行业常用术语和概念

电信行业常用术语和概念 信令数据:终端机与通讯网络交互的数据 LAC:移动通讯系统中的位置区码,为寻呼而设置的一个区域,覆盖一片地理区域,一个位置区可以包含一个或多个小区(CI) CI:小区识别...

2019/08/13 11:26
65
flink 多流join 触发时机详解

flink 多流join 触发时机详解 flink多流join代码很简单,但是对于初学者可能会遇到window窗口计算不能触发的"假象",这往往是由于对flink window eventtime processtime理解不到位引起的,以下示...

2019/08/02 15:21
1.1K
hadoop 命名空间的维护机制

hadoop 1.x secondarynamenode合并edits 和 fsimage 流程 如何触发 secondaryNameNode合并edits 和 fsimage fs.checkpoint.period:3600s 默认一小时触发一次(core-site.xml) fs.checkpoint.s...

2019/06/11 14:37
779
sql 中 where和join 生成中间表问题

sql 中 where和join 生成中间表问题 数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户 join on 的情况,以left join on 为例,它不管on的条...

2019/03/15 16:53
49
hadoop fsimage文件解析

hadoop fsimage文件解析 使用hdfs 命令解码fsimage文件 必须参数: -i,–inputFile <arg> 输入FSImage文件. -o,–outputFile <arg> 输出转换后的文件,如果存在,则会覆盖 可选参数: -p,–p...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部