加载中
Flume Agent内部原理

重要组件: 1)ChannelSelector ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。 ReplicatingSelector会...

Flume 事务

Put事务流程 doPut:将批数据先写入临时缓冲区putList。 doCommit:检查channel内存队列是否足够合并。 doRollback:channel内存队列空间不足,回滚数据。 Take事务 doTake:将数据取到临时缓冲区...

ClickHouse删除操作

从使用场景来说,Clickhouse是个分析型数据库。这种场景下,数据一般是不变的,因此Clickhouse对update、delete的支持是比较弱的,实际上并不支持标准的update、delete操作。 下面介绍一下C...

10/22 15:40
21
保证MySQL和Redis的数据

一、什么是数据的一致性 “数据一致”一般指的是:缓存中有数据,缓存的数据值=数据库中的值。但根据缓存中是有数据为依据,则“一致”可以包含两种情况: 缓存中有数据,缓存的数据值=数据库...

10/18 20:00
59
使用DBeaver链接Hive

1.Hive开启HiveMetastore和HiveServer2 nohup /opt/module/hive3.1.2/bin/hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 & nohup /opt/module/hive3.1.2/bin/hive --service...

记一次HiveServer2启动不起来问题

执行bin/hive --service hiveserver2 等待30秒后,Hadoop已经退出安全模式 但是绑定的10000端口未成功。 各种原因都尝试了,还是不行,查看hive日志。 出现权限的问题,我也很纳闷。 java.l...

10/11 18:31
20
搭建简易版StartRocks数据库

获取二进制产品包 https://starrocks.com/zh-CN/download/request-download/1 tar -xzvf StarRocks-1.8.2.tar.gz 重命名:mv StarRocks-1.8.2/ start_rocks1.8.2 目录内容如下: StarRocks-X...

安装Hive3.1.2

下载地址:https://downloads.apache.org/hive/hive-3.1.2/ 解压在指定目录 tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/ mv /opt/module/apache-hive-3.1.2-bin/...

Hadoop-Yarn常用的调优参数

调优参数列表 (1)Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器 ...

09/28 18:03
12
Hadoop小文件优化方法

Hadoop小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的...

09/28 17:57
13
Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运...

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]...

09/28 16:02
15
异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicie...

09/28 15:52
12
HDFS—存储优化(纠删码)

纠删码原理 HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约...

09/28 11:48
29
Hadoop服役新服务器和推移旧服务器

服役新服务器 1)需求 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。 2)环境准备 新服务器安装Hadoo...

09/28 11:22
44
Hadoop服务器间数据均衡

在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。 另一种情况,就是新服役的...

09/28 11:07
13
HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建...

09/28 10:59
30
Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节...

09/28 10:51
14
hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设...

09/28 10:28
17
NameNode心跳并发配置

NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10。 修改hdfs-site.xml文件...

09/28 10:20
14

没有更多内容

加载失败,请刷新页面

返回顶部
顶部