加载中
搭建简易版StartRocks数据库

获取二进制产品包 https://starrocks.com/zh-CN/download/request-download/1 tar -xzvf StarRocks-1.8.2.tar.gz 重命名:mv StarRocks-1.8.2/ start_rocks1.8.2 目录内容如下: StarRocks-X...

安装Hive3.1.2

下载地址:https://downloads.apache.org/hive/hive-3.1.2/ 解压在指定目录 tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/ mv /opt/module/apache-hive-3.1.2-bin/...

Hadoop-Yarn常用的调优参数

调优参数列表 (1)Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器 ...

09/28 18:03
20
Hadoop小文件优化方法

Hadoop小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的...

09/28 17:57
16
Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运...

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]...

09/28 16:02
23
异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicie...

09/28 15:52
26
HDFS—存储优化(纠删码)

纠删码原理 HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约...

09/28 11:48
41
Hadoop服役新服务器和推移旧服务器

服役新服务器 1)需求 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。 2)环境准备 新服务器安装Hadoo...

09/28 11:22
51
Hadoop服务器间数据均衡

在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。 另一种情况,就是新服役的...

09/28 11:07
18
HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建...

09/28 10:59
78
Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节...

09/28 10:51
24
hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设...

09/28 10:28
30
NameNode心跳并发配置

NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10。 修改hdfs-site.xml文件...

09/28 10:20
14
NameNode内存生产配置

Hadoop2.x系列,配置NameNode内存 NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x系列,配...

09/28 10:15
51
DataNode工作机制

(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode启动后向NameNode注册,通...

09/27 09:41
28
NameNode和SecondaryNameNode的工作机制

1)第一阶段:NameNode启动 (1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 (2)客户端对元数据进行增删改的请求。 ...

09/27 09:29
40
Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码...

09/27 09:18
48
MapReduce开发总结

1)输入数据接口:InputFormat (1)默认使用的实现类是:TextInputFormat (2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。 (3...

09/27 08:57
38
作业提交过程之HDFS&MapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交...

09/26 18:09
45

没有更多内容

加载失败,请刷新页面

返回顶部
顶部