加载中
Hive和HBase有哪些区别与联系及适用场景

hive Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂...

大数据安全 Ranger

简介 Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、YARN、Hive、HBase等进行细粒度的数据访问控制。通过Ranger统一的管理控制台界面,管理...

Spark 小内容

Spark 的一些内容 1.函数作用以及返回值类型 foreach flatMap 返回的迭代器的所有内容构成新的RDD 是一个序列化的数据而不是单个数据项-- a Seq map map:对集合中每个元素进行操作。 flatMa...

04/11 15:26
4
数据分层

1.数据计算层 01.数据计算层-主要考虑方面 计算平台:离线数据计算 实时数据计算 管理:元数据模型整合和应用、 数据表的规范命名 存储元数据: 运行数据: 2.计算的数据分层:数据加工链路 ...

元数据治理 Apache Atlas

Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括 数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能...

HBase 架构和 Java Api

最简单,最易懂,最实用的HBase,快速上手必备收藏

2016/11/24 17:36
837
分布式系统基本原理

三元组 其实,分布式系统说白了,就是很多机器组成的集群,靠彼此之间的网络通信,担当的角色可能不同,共同完成同一个事情的系统。如果按”实体“来划分的话,就是如下这几种: 节点 -- 系统...

flume1.6 install

本文只在让你成功安装 flume,如果不了解flume 请看官网 http://flume.apache.org/ 废话不多,安装测试.

2016/06/15 11:14
532
中级 Linux 用户非常有用的 20 个命令

linux 中级 命令

2016/02/18 19:22
205
Spark Streaming结合Flume、Kafka最新最全日志分析

这是一份良好的可以执行的日志分析,Spark Streaming、Flume、Kafka 最新最全日志分析,请按照要求建立项目工程.关于jar包,建议自己编译.如果还有问题,实在 搞不定的,请联系我给你们编译好的相...

大数据生命周期管理框架Apache Falcon简介

Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化had...

Flume+Kafka+SparkStreaming 最新最全整合

Flume+Kafka+SparkStreaming整合,为日志分析做准备工具.kafka_2.11,flume1.6.参考了google的前四页,baidu的前15页所有相关消息,很有价值,为节约大家时 间,特分享,求点赞...

HTTP应用

断点续传的实现原理,多线程下载的原理,http代理,虚拟主机

http协议之初识

详述http概念,特点和工作流程

2015/11/26 13:50
80
FAQ

运行环境 EMR版本: EMR-3.14.0 集群类型: HADOOP 软件信息: HDFS2.7.2 / YARN2.7.2 / Hive2.3.3 / Ganglia3.7.2 / Zookeeper3.4.13 / Spark2.3.1 / HBase1.1.1 / HUE4.1.0 / Zeppelin0.8.0 /...

大数据调度工具oozie详细介绍

背景 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择...

http之头域

每个头域由一个域名,冒号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符。 1、请求信息: ...

2015/11/26 13:58
105
Spark 内存管理

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...

03/19 17:48
8
hive 实战总结

hive 体系架构 启动 hive 命令行 进入hive安装目录,输入bin/hive的执行程序,或者输入 hive –service cli hive脚本的执行方式大致有三种 hive可以直接敲hive命令进入interactive模式,直接...

04/10 10:36
41

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部