加载中
hdfs及MapReduce相关文章

hdfs及MapReduce相关文章 hdfs 文件存储格式https://my.oschina.net/u/2969788/blog/2875351 hdfs 块(block) 大小的影响https://my.oschina.net/u/2969788/blog/2873733 mapreduce执行过程概...

hive 表类型和基本表操作

概要: hive是一个基于 hdfs的数据仓库,会将 hsq(类似于sql)的语句转换成 mapreduce 执行,如果配置了 其他计算引擎比如spark(hive on spark),那么会转换成其他的 来执行, hive数据类型 基本数...

2017/04/01 10:54
26
hdfs 块(block) 大小的影响

hdfs 块(block) 大小的影响 hdfs 会将文件划分为块(block),进行存储,每个块默认会备份成三份存储在不同的DataNode节点上,一般情况下块的默认大小是 64MB或者128MB,这样做的好处是 减少磁盘寻...

hadoop fsimage文件解析

hadoop fsimage文件解析 使用hdfs 命令解码fsimage文件 必须参数: -i,–inputFile <arg> 输入FSImage文件. -o,–outputFile <arg> 输出转换后的文件,如果存在,则会覆盖 可选参数: -p,–p...

hdfs文件存储格式

hdfs 文件存储格式 hdfs 文件存储格式分为两大类 行存储和列存储 行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读...

2018/11/13 10:36
1K
spark 基本原理及概念

spark原理和概念 spark 运行架构 spark的节点分为 driver(驱动节点)和executor(执行节点),基于yarn来提交spark job分为两种模式client和cluster,两种模式去区别在于 client模式将会把driver程...

hive sql 常用函数

hive 常用函数 COALESCE(T v1, T v2,…), 返回参数中第一个非null值 ,如果全是null 返回null hive sql 创建数据库 create database if not exists testdb comment '这是一个描述' location ...

2018/02/22 14:55
15
hive存储格式和表类型,分区分桶

存储格式 textfile: 默认格式.存储为行存储 ORCfile:按照行分块,按照列存储,特点数据压缩比非常高 Parquet:具有较好的压缩比,方便 MapReduce计算 parquet 和 ORC 对比 表类型 内部表:一般的表...

2018/01/29 16:35
30
hdfs 原理

概述: Hadoop Distributed File System(HDFS):是一个高吞吐量的分布式文件系统.是分布式计算的基础 基本概念: NameNode (元数据节点):存储元数据信息,包括 fsimage(命名空间镜像映像),edits...

2017/03/28 17:59
25

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部