Apache Sentry实战之旅(一)—— Impala+Sentry整合

Impala默认是以impala这个超级用户运行服务,执行DML和DDL操作的,要实现不同用户之间细粒度的权限控制,需要与Sentry整合。Sentry是Apache下的一个开源项目,它基于RBAC的授权模型实现了权限...

2019/07/07 11:02
3.2K
使用Apache Kudu和Impala实现存储分层

当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统。对于快速更新和实时分析工作较多的场景,我们可能希望使用Apache Kudu,但是对于低成本的大规模可...

2019/05/20 11:23
1.2W
Hadoop技术资料汇总(不断更新中)

这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢...

2019/05/07 21:26
1.3K
OutOfMemoryError: GC Overhead Limit Exceeded错误解析

简单地说,Garbage Collection (GC)就是JVM回收不再使用的对象,释放内存的过程。GC Overhead Limit Exceeded error是java.lang.OutOfMemoryError家族的一员,表示JVM内存被耗尽。接下来看看...

2019/04/15 09:24
4.8W
ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析

环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager节点:主节点RM01,从节点RM02 背景 最近有一次我们的Hadoop监控平台发出ResourceManager(以下...

Hadoop NameNode、DataNode热迁移方案

最近我们生产环境的Hadoop集群需要调整几台服务器,具体转换关系如下: datanode92.bi -> namenode02.bi namenode01.bi(old) -> datanode19.bi namenode02.bi -> datanode20.bi 最终目标为:...

2019/03/12 21:15
5.6K
kafka-connect-hive sink插件实现要点小结

kafka-connect-hive sink插件实现了以ORC和Parquet两种方式向Hive表中写入数据。Connector定期从Kafka轮询数据并将其写入HDFS,来自每个Kafka主题的数据由提供的分区字段进行分区并划分为块,...

2019/02/25 11:46
4.8K
kafka-connect-hive sink插件入门指南

kafka-connect-hive是基于kafka-connect平台实现的hive数据读取和写入插件,主要由source、sink两部分组成,source部分完成hive表数据的读取任务,kafka-connect将这些数据写入到其他数据存储...

2019/02/15 17:33
5.5K
如何使用Scala的exists函数

在本文中,我们将演示如何在Scala的集合上使用exists函数,该函数适用于Scala的可变(Mutable)和不可变(Immutable)集合。 exists函数接受谓词函数(predicate function),并将使用该函数...

2019/02/13 21:25
736
Scala中如何进行数值转换

问题 在Scala中如何进行数值转换?比如Int类型转换为Long类型,Int类型转换为Double类型等等。 解决方案 不同于Java中的”强制转换”方法,Scala为所有数值类型提供了to*方法来实现数值类型之...

2019/02/13 20:40
384
Scala for循环示例

for循环是一种重复控制结构,允许你高效地编写需要执行特定次数的循环。下面的示例以各种形式描述了Scala中的for循环。 语法——带范围的for循环(for loop with ranges) 在Scala里,最简单...

2019/02/13 20:08
439
Scala里如何进行++和--操作?

问题 Scala没有++和--运算符,是否有一些类似的操作符或方法可以替代? 解决方案 因为val字段是不可变的,它们不能递增或递减,但是声明为var的Int字段是可变的,可以使用Scala的+=和−=方法...

2019/02/13 17:51
1.5K
Apache Griffin 入门指南

数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(...

Kudu异常总结

1、impala不支持kudu表的关键字:PARTITIONED - LOCATION - ROWFORMAT(官方链接:Impala Keywords Not Supported for Kudu Tables),例如执行如下语句会报错: CREATE TABLE my_first_tabl...

2018/12/29 14:49
2.5W
Kudu 1.7 安装指南

注:本安装指南使用rpm的方式安装kudu,因为在测试过程中,发现源码编译安装kudu后部分命令无法使用,故放弃这种方式。 环境: 操作系统:centos 6.6 kudu版本:kudu-1.7.0+cdh5.16.1 一、依...

2018/12/24 10:35
2.8K
Kafka技术资料总结(不断更新中)

1、Kafka实践:到底该不该把不同类型的消息放在同一个主题中 2、Kafka剖析系列: Kafka剖析(一):Kafka背景及架构介绍 Kafka设计解析(二):Kafka High Availability (上) Kafka设计解析...

etcd、Zookeeper和Consul一致键值数据存储的性能对比

这篇博文是探索三个分布式、一致性键值数据存储软件性能的系列文章中的第一篇:etcd、Zookeeper和Consul,由etcd团队所写,可以让我们全面地了解如何评估三个分布式一致存储软件的性能。翻译...

2018/09/17 22:09
8.4K
MySQL timeout调研与实测

说明: 接触网络编程我们不得不提的就是超时,TCP建立连接的超时,数据报文发送/接收超时等等,mysql在超时上也做足了功夫。 Variable_name Default Value connect_timeout 5 interactive_ti...

2018/09/11 12:00
503
一次JDBC连接泄露问题的排查过程总结

当前使用的Spring JDBC版本是5.0.0.RC1,HikariCP版本是3.1.0。 今天测试同学反馈在前端页面点击次数多了,就报500错误,数据显示不出来。于是我在后台服务日志中观察发现HikariCP连接池报如...

2018/09/10 09:40
4.7W
IDEA 编译运行 Spring Boot 2.0 源码

下载代码切换分支 首先到GitHub上clone下Spring Boot的代码: git clone https://github.com/spring-projects/spring-boot.git 由于Spring Boot的发布版本代码都在tag上,所以需要使用git t...

没有更多内容

加载失败,请刷新页面