加载中
YARN任务监控界面Aggregate Resource Allocation指标解析

在YARN的原生任务监控界面中,我们经常能看到Aggregate Resource Allocation这个指标(图中高亮选中部分),这个指标表示该任务拥有的所有container每秒所消耗的资源(内存、CPU)总和: Ag...

08/31 11:33
14
ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(二)

时隔五个月(点击阅读前文),如标题所示的问题再次发生,本次由于我们大数据监控系统的完善,让我对该问题进行了更深一步的研究。以下是整个排查过程和解决方案: 一、问题说明 从8月8日早上...

Apache Sentry实战之旅(二)—— Sentry客户端使用

Apache Sentry虽然可以将HDFS、Hive与Impala三个组件的权限认证统一,但是只能按照给组授予角色的方式来进行授权,不能直接授权给组中的用户,显得不太灵活。有时候为了兼容已有大数据平台的...

07/27 22:06
542
Apache Sentry实战之旅(一)—— Impala+Sentry整合

Impala默认是以impala这个超级用户运行服务,执行DML和DDL操作的,要实现不同用户之间细粒度的权限控制,需要与Sentry整合。Sentry是Apache下的一个开源项目,它基于RBAC的授权模型实现了权限...

使用Apache Kudu和Impala实现存储分层

当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统。对于快速更新和实时分析工作较多的场景,我们可能希望使用Apache Kudu,但是对于低成本的大规模可...

05/20 11:23
697
Hadoop技术资料汇总(不断更新中)

这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢...

05/07 21:26
70
OutOfMemoryError: GC Overhead Limit Exceeded错误解析

简单地说,Garbage Collection (GC)就是JVM回收不再使用的对象,释放内存的过程。GC Overhead Limit Exceeded error是java.lang.OutOfMemoryError家族的一员,表示JVM内存被耗尽。接下来看看...

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析

环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager节点:主节点RM01,从节点RM02 背景 最近有一次我们的Hadoop监控平台发出ResourceManager(以下...

Hadoop NameNode、DataNode热迁移方案

最近我们生产环境的Hadoop集群需要调整几台服务器,具体转换关系如下: datanode92.bi -> namenode02.bi namenode01.bi(old) -> datanode19.bi namenode02.bi -> datanode20.bi 最终目标为:...

03/12 21:15
234
kafka-connect-hive sink插件实现要点小结

kafka-connect-hive sink插件实现了以ORC和Parquet两种方式向Hive表中写入数据。Connector定期从Kafka轮询数据并将其写入HDFS,来自每个Kafka主题的数据由提供的分区字段进行分区并划分为块,...

02/25 11:46
169
kafka-connect-hive sink插件入门指南

kafka-connect-hive是基于kafka-connect平台实现的hive数据读取和写入插件,主要由source、sink两部分组成,source部分完成hive表数据的读取任务,kafka-connect将这些数据写入到其他数据存储...

如何使用Scala的exists函数

在本文中,我们将演示如何在Scala的集合上使用exists函数,该函数适用于Scala的可变(Mutable)和不可变(Immutable)集合。 exists函数接受谓词函数(predicate function),并将使用该函数...

Scala中如何进行数值转换

问题 在Scala中如何进行数值转换?比如Int类型转换为Long类型,Int类型转换为Double类型等等。 解决方案 不同于Java中的”强制转换”方法,Scala为所有数值类型提供了to*方法来实现数值类型之...

02/13 20:40
28
Scala for循环示例

for循环是一种重复控制结构,允许你高效地编写需要执行特定次数的循环。下面的示例以各种形式描述了Scala中的for循环。 语法——带范围的for循环(for loop with ranges) 在Scala里,最简单...

02/13 20:08
22
Scala里如何进行++和--操作?

问题 Scala没有++和--运算符,是否有一些类似的操作符或方法可以替代? 解决方案 因为val字段是不可变的,它们不能递增或递减,但是声明为var的Int字段是可变的,可以使用Scala的+=和−=方法...

02/13 17:51
79
Apache Griffin 入门指南

数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(...

Kudu异常总结

1、impala不支持kudu表的关键字:PARTITIONED - LOCATION - ROWFORMAT(官方链接:Impala Keywords Not Supported for Kudu Tables),例如执行如下语句会报错: CREATE TABLE my_first_tabl...

2018/12/29 14:49
1K
Kudu 1.7 安装指南

注:本安装指南使用rpm的方式安装kudu,因为在测试过程中,发现源码编译安装kudu后部分命令无法使用,故放弃这种方式。 环境: 操作系统:centos 6.6 kudu版本:kudu-1.7.0+cdh5.16.1 一、依...

2018/12/24 10:35
319
Kafka技术资料总结(不断更新中)

1、Kafka实践:到底该不该把不同类型的消息放在同一个主题中 2、Kafka剖析系列: Kafka剖析(一):Kafka背景及架构介绍 Kafka设计解析(二):Kafka High Availability (上) Kafka设计解析...

etcd、Zookeeper和Consul一致键值数据存储的性能对比

这篇博文是探索三个分布式、一致性键值数据存储软件性能的系列文章中的第一篇:etcd、Zookeeper和Consul,由etcd团队所写,可以让我们全面地了解如何评估三个分布式一致存储软件的性能。翻译...

2018/09/17 22:09
1K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部