加载中
Redis AOF重写阻塞问题分析

问题背景 某个业务线使用Redis集群保存用户session数据,数据量大约在4千万-5千万,每天发生3-4次AOF重写,每次时间持续30-40秒,AOF重写期间出现Redis主进程阻塞,应用端响应超时的问题。 ...

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(三)

这个问题又让我们碰到了,发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。不彻底解决这个问题心中一直是个梗,所以基于前两次的分析和阅读社区最新版H...

05/10 21:35
488
大压缩文件对Impala查询性能的影响

Hadoop/HDFS/MapReduce/Impala被设计用于存储和处理大量文件的场景,比如TB或者PB级别数据量的文件。大量小文件对查询性能有很大的影响,因为NameNode要保存大量的HDFS文件元数据,一次性查询...

一次Impala upsert Kudu执行缓慢问题排查总结

问题背景 BI同学会用Impala在Kudu表上跑一些ETL任务,最近,BI同学反馈一个Kudu表的ETL任务突然变慢,执行时间从原来的不到1分钟到现在的7分钟。 解决过程 下文中提到的软件环境为: Impala...

03/09 18:46
1.6K
YARN Fair Scheduler批量分配功能调优总结

背景 YARN调度效率不高,队列资源充足,集群中正在运行的任务数量少,资源利用率低的情况下有一部分任务排队,等待分配资源时间长。 注:我们的集群使用的是Apache Hadoop 2.6.3,以下内容以...

02/10 21:05
1.2K
一步一步理解Impala query profile(四)

在本系列的第三部分,我使用了一个示例来详细地介绍Impala query profile。在这一部分中,我将使用一个真实生产系统的Impala Profile文件,解释我在遇到问题时阅读Profile文件的步骤,并逐渐...

02/05 23:43
676
利用反射实现状态同步

Java反射使我们能在程序运行时动态调用某个对象的方法/构造函数、获取某个对象的属性,经常用于实现动态代理、工厂模式、Java JDBC加载连接驱动类等,近期阅读开源项目源码发现,它还有一种重...

2019/12/14 11:10
64
一步一步理解Impala query profile(三)

在本博客系列的第3部分,我将仍然关注查询计划(Query Plan)和执行摘要(Execution Summary),但是将使用真实数据(Kaggle’s Flights Delay database),来执行一个更复杂的查询。 测试用...

2019/12/08 11:57
1.7K
一步一步理解Impala query profile(二)

在上一篇文章中,我们介绍了Impala query profie的概要部分,在本篇文章我们介绍Profile的查询计划(Query Plan)和执行概要(Execution Summary)部分。 Profile的查询计划和执行概要如下所...

2019/12/08 11:30
1.2K
一步一步理解Impala query profile(一)

很多Impala用户不知道如何阅读Impala query profile来了解一个查询背后正在执行的操作,从而在此基础上对查询进行调优以充分发挥查询的性能。因此我想写一篇简单的文章来分享我的经验,并希望...

2019/12/08 10:47
1.7K
优化ORC和Parquet文件,提升大SQL读取性能

本文编译自IBM开发者社区,主要介绍了HDFS中小的ORC和Parquet文件的问题,以及这些小文件如何影响Big SQL的读取性能,并探索了为了提高读取性能,使用现有工具将小文件压缩为大文件的可能解决...

YARN任务监控界面Aggregate Resource Allocation指标解析

在YARN的原生任务监控界面中,我们经常能看到Aggregate Resource Allocation这个指标(图中高亮选中部分),这个指标表示该任务拥有的所有container每秒所消耗的资源(内存、CPU)总和: Ag...

2019/08/31 11:33
846
ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(二)

时隔五个月(点击阅读前文),如标题所示的问题再次发生,本次由于我们大数据监控系统的完善,让我对该问题进行了更深一步的研究。以下是整个排查过程和解决方案: 一、问题说明 从8月8日早上...

Apache Sentry实战之旅(二)—— Sentry客户端使用

Apache Sentry虽然可以将HDFS、Hive与Impala三个组件的权限认证统一,但是只能按照给组授予角色的方式来进行授权,不能直接授权给组中的用户,显得不太灵活。有时候为了兼容已有大数据平台的...

2019/07/27 22:06
1.8K
Apache Sentry实战之旅(一)—— Impala+Sentry整合

Impala默认是以impala这个超级用户运行服务,执行DML和DDL操作的,要实现不同用户之间细粒度的权限控制,需要与Sentry整合。Sentry是Apache下的一个开源项目,它基于RBAC的授权模型实现了权限...

2019/07/07 11:02
1.2K
使用Apache Kudu和Impala实现存储分层

当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统。对于快速更新和实时分析工作较多的场景,我们可能希望使用Apache Kudu,但是对于低成本的大规模可...

2019/05/20 11:23
6K
Hadoop技术资料汇总(不断更新中)

这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢...

2019/05/07 21:26
841
OutOfMemoryError: GC Overhead Limit Exceeded错误解析

简单地说,Garbage Collection (GC)就是JVM回收不再使用的对象,释放内存的过程。GC Overhead Limit Exceeded error是java.lang.OutOfMemoryError家族的一员,表示JVM内存被耗尽。接下来看看...

2019/04/15 09:24
3.1W
ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析

环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager节点:主节点RM01,从节点RM02 背景 最近有一次我们的Hadoop监控平台发出ResourceManager(以下...

Hadoop NameNode、DataNode热迁移方案

最近我们生产环境的Hadoop集群需要调整几台服务器,具体转换关系如下: datanode92.bi -> namenode02.bi namenode01.bi(old) -> datanode19.bi namenode02.bi -> datanode20.bi 最终目标为:...

2019/03/12 21:15
3.5K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部