加载中
hdfs及MapReduce相关文章

hdfs及MapReduce相关文章 hdfs 文件存储格式https://my.oschina.net/u/2969788/blog/2875351 hdfs 块(block) 大小的影响https://my.oschina.net/u/2969788/blog/2873733 mapreduce执行过程概...

spark相关文章

spark相关文章 spark 重新分区 repartition和coalescehttps://my.oschina.net/u/2969788/blog/2875636 spark的宽依赖和窄依赖https://my.oschina.net/u/2969788/blog/2870446 spark原理和概念...

2018/11/13 18:22
3
hive相关文章

hive相关文章 hive存储格式和表类型,分区分桶https://my.oschina.net/u/2969788/blog/1615049 Hive中order by,sort by,distribute by,cluster by的区别https://my.oschina.net/u/2969788/...

2018/11/13 18:17
1
数据仓库理论相关文章

数据仓库理论相关文章 数据仓库的设计https://my.oschina.net/u/2969788/blog/1611973 OLTP和OLAP 在线事务处理和在线分析处理https://my.oschina.net/u/2969788/blog/2875200 数据立方体常见...

2018/11/13 18:13
3
hive join的一个小问题

hive join的一个小问题 最近在看公司代码发现一个和join相关的奇怪的写法 抽象一下表结构如下 为了简化问题,这里就用这张示例表演示 写法一 写法二 写法一 明细是想要缩小join表的范围,减少关...

08/21 18:05
1
spark join和union+reducebykey 对比

spark join和union+reducebykey 对比 对于某些聚合需求可以用union+reducebykey的方式替换join,join将会做两个表的连接操作比较消耗新能,union+reducebykey,可以在map的端进行预聚合,然后再r...

08/20 11:19
0
Linux 常用命令

Linux 常用命令 文件表达式 -e filename 如果 filename存在,则为真 -d filename 如果 filename为目录,则为真 -f filename 如果 filename为常规文件,则为真 -L filename 如果 filename为符...

08/20 10:52
1
电信行业常用术语和概念

电信行业常用术语和概念 信令数据:终端机与通讯网络交互的数据 LAC:移动通讯系统中的位置区码,为寻呼而设置的一个区域,覆盖一片地理区域,一个位置区可以包含一个或多个小区(CI) CI:小区识别...

LAC
08/13 11:26
0
flink 多流join 触发时机详解

flink 多流join 触发时机详解 flink多流join代码很简单,但是对于初学者可能会遇到window窗口计算不能触发的"假象",这往往是由于对flink window eventtime processtime理解不到位引起的,以下示...

08/02 15:21
8
hadoop 命名空间的维护机制

hadoop 1.x secondarynamenode合并edits 和 fsimage 流程 如何触发 secondaryNameNode合并edits 和 fsimage fs.checkpoint.period:3600s 默认一小时触发一次(core-site.xml) fs.checkpoint.s...

sql 中 where和join 生成中间表问题

sql 中 where和join 生成中间表问题 数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户 join on 的情况,以left join on 为例,它不管on的条...

03/15 16:53
1
hadoop fsimage文件解析

hadoop fsimage文件解析 使用hdfs 命令解码fsimage文件 必须参数: -i,–inputFile <arg> 输入FSImage文件. -o,–outputFile <arg> 输出转换后的文件,如果存在,则会覆盖 可选参数: -p,–p...

spark为什么比MapReduce快

spark为什么比MapReduce快 spark task启动时间快,因为spark采用fork线程的方式,而Hadoop每次都创建新的进程 spark只有在shuffle的时候才将数据写入磁盘,Hadoop MapReduce多个mp作业之间交换数...

2018/12/03 15:16
20
hive 自定义聚合函数 UDAF

hive 自定义聚合函数 UDAF hive的 udaf 是自定义聚合函数 配合group by 使用,接受0行到多行数据 返回一个计算结果值,定义静态内部类 实现UDAFEvaluator的方法 包括入下 init() 初始化 一般负...

2018/12/03 14:14
456
hive join,outer join, semi join详解

hive join,outer join, semi join详解 join 最简单 两个表取交集 left outer join是以左表驱动,右表不存在的key均赋值为null right outer join是以右表驱动,左表不存在的key均赋值为null ...

2018/11/13 20:53
7
spark 重新分区 repartition和coalesce

spark 重新分区 repartition和coalesce spark 重新分区的优势 对于给定RDD只需要扫描一次的情况 重新分区没有任何好处 类似于 join() groupbykey() reducebykey() 这样的操作都会受益 repara...

2018/11/13 17:38
296
hive中order by ,sort by ,distribute by,cluster by的区别

Hive中order by,sort by,distribute by,cluster by的区别 order by 会对数据进行全局排序 只有一个reduce 保证全局有序,数据规模比较大的时候回耗费很多时间 sort by 在数据进入reduce之前...

2018/11/13 15:46
15
hive 分析函数及用法

hive 分析函数及用法 hive 常用于olap(On-Line Analytical Processin 在线分析处理)领域,如下,分析函数不同于聚合函数,聚合函数会返回一个值但是分析函数会返回一个数据集,通过配合可以对数据...

2018/11/13 14:32
241
算法总结

算法总计 聚类 定义:对应给定集合D,其中每个元素有n个可观察属性,使用某种算法将其分为k个子集,其中每个子集内部元素之间相似度尽可能高,不同子集内部元素相异度尽可能高的过程叫做聚类,每个...

2018/11/13 11:39
1
hdfs文件存储格式

hdfs 文件存储格式 hdfs 文件存储格式分为两大类 行存储和列存储 行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读...

2018/11/13 10:36
1K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部