加载中
HADOOP性能优化和运维

基于硬件,操作系统,JVM和HADOOP调参

Flume+Kafka+SparkStreaming 最新最全整合

Flume+Kafka+SparkStreaming整合,为日志分析做准备工具.kafka_2.11,flume1.6.参考了google的前四页,baidu的前15页所有相关消息,很有价值,为节约大家时 间,特分享,求点赞...

大数据安全 Ranger

简介 Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、YARN、Hive、HBase等进行细粒度的数据访问控制。通过Ranger统一的管理控制台界面,管理...

大数据生命周期管理框架Apache Falcon简介

Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化had...

大数据调度工具oozie详细介绍

背景 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择...

Hive和HBase有哪些区别与联系及适用场景

hive Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂...

分布式系统基本原理

三元组 其实,分布式系统说白了,就是很多机器组成的集群,靠彼此之间的网络通信,担当的角色可能不同,共同完成同一个事情的系统。如果按”实体“来划分的话,就是如下这几种: 节点 -- 系统...

SparkSQL JDBC连接 mysql

SparkSQL JDBC连接 mysql

2016/07/01 12:21
120
用户画像数据建模方法

作者:百分点技术总监郭志金 摘自:百分点(ID: baifendian_com)

Spark Streaming结合Flume、Kafka最新最全日志分析

这是一份良好的可以执行的日志分析,Spark Streaming、Flume、Kafka 最新最全日志分析,请按照要求建立项目工程.关于jar包,建议自己编译.如果还有问题,实在 搞不定的,请联系我给你们编译好的相...

Ubuntu上手动安装sbt

Ubuntu上手动安装sbt

2016/06/22 16:03
134
kafka 安装 单机测试

kafka 安装 单机测试,根据官网实践下而已. http://kafka.apache.org/documentation.html#quickstart

2016/06/15 14:33
363
flume1.6 install

本文只在让你成功安装 flume,如果不了解flume 请看官网 http://flume.apache.org/ 废话不多,安装测试.

2016/06/15 11:14
546
Intellij-idea工具开发spark常见问题解决备案

Intellij-idea工具开发spark常见问题解决备案,环境部署,打包

Spark On YARN 集群安装部署

Spark 集群部署的过程。我们知道 Spark 官方提供了三种集群部署方案: Standalone, Mesos, YARN。其中 Standalone 最为方便,本文主要讲述结合 YARN 的部署方案。后期会增加 messos....

2016/05/26 13:48
203

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部