文档章节

大数据(hadoop-flume的原理架构)

这很耳东先生
 这很耳东先生
发布于 06/13 19:14
字数 403
阅读 18
收藏 1

背景介绍

Hadoop提供了一个中央化的存储系统
   有利于进行集中式的数据分析与数据共享

Hadoop对存储格式没有要求:
   用户访问日志
   产品信息
   网页数据等

如何将数据存入Hadoop:
   数据分散在各个离散的设备上
   数据保存在传统的存储设备和系统中
 

常见的两种数据来源

分散的数据源:
   机器产生的数据;
   用户访问日志;
   用户购买日志。

传统系统中的数据:
   传统关系型数据库:Mysql、Oracle等;

Hadoop收集和入库基本要求

分布式
   数据源多样化
   数据源分散

可靠性
   保证不丢数据
   允许丢部分数据

可扩展
   数据源可能会不断增加

通过并行提高性能

数据收集
   Flume
   Kafka
   Scribe

传统数据库与Hadoop同步
   Sqoop
 

Flume

Flume OG
   OG:“Original Genaration”
   0.9.x或cdh3以及更早版本
   由agent、collector、master等组件构成

Flume NG
   NG:“Next/New Generation” 
   1.x或cdh4以及之后的版本
   由Agent、Client等组件构成

为什么要推出NG版本
   精简代码
   架构简化
 

Flume OG基本架构

 

Flume NG基本架构

 

 

 

 

 

 

© 著作权归作者所有

这很耳东先生
粉丝 7
博文 93
码字总数 261133
作品 0
广州
私信 提问
基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战 网盘地址:https://pan.baidu.com/s/13vOi8WphetCiRtHhOCUdGg 密码: kt99 备用地址(腾讯微云):https://share.weiyun.com/5wdYJSk 密码:jjmx9p 课程...

羞答答的
2018/07/03
0
0
Apache Flume 1.9.0 发布,日志服务器

Apache Flume 1.9.0 发布了,Flume 是一个分布式、可靠和高可用的服务,用于收集、聚合以及移动大量日志数据,使用一个简单灵活的架构,就流数据模型。这是一个可靠、容错的服务。 本次更新如...

程六金
01/10
0
0
Apache Flume 1.6.0 发布,日志服务器

Apache Flume 1.6.0 发布,此版本现已提供下载: http://flume.apache.org/download.html 更新内容: ** Bug 修复 [FLUME-1793] - Unit test TestElasticSearchLogStashEventSerializer fail......

oschina
2015/06/03
3.1K
2
Apache Flume 1.5.0 发布,日志服务器

Apache Flume 1.5.0 发布,Flume 是一个分布式、可靠和高可用的服务,用于收集、聚合以及移动大量日志数据,使用一个简单灵活的架构,就流数据模型。这是一个可靠、容错的服务。 改进内容包括...

oschina
2014/05/22
2.8K
4
使用Flume将日志导入OSS

前言 Apache Flume是一个高可用、高可靠的分布式日志采集、聚合与传输的系统。它基于流式的数据传输,架构简单、灵活。它简单可扩展的模型,也适合在线的数据分析。 上图是它的简单数据流模型...

冷月_wjh
2018/08/29
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Boot 常用注解说明

实体类 @Entity (实体类注解) @Table(可指定表名) @Data(可缺省get/set) @Id (指定属性主键) @GeneratedValue(指定主键生成规则)

兜兜毛毛
37分钟前
0
0
局域网能互相ping通,ubuntu虚拟机不能上外网

【问题】 桥接模式老是无法上网,查看本机IP发现被分配了一个私网地址,猜测应该是虚拟DHCP服务器没有打开,于是查看Ubuntu的网络配置: /etc/network/interfaces 发现没有dhcp配置的信息,只...

tahiti_aa
今天
1
0
以太坊助记词PHP开发包简介

以太坊助记词PHP开发包用来为PHP以太坊应用增加助记词和层级确定密钥支持能力。下载地址:以太坊助记词php开发包 。 1、开发包概述 以太坊助记词PHP开发包主要包括以下特性: 生成符合BIP39...

汇智网教程
昨天
2
0
系统监控-分布式调用链Skywalking

1. 为什么要使用分布式调用链技术? 随着公司业务的高速发展,公司服务之间的调用关系愈加复杂,如何理清并跟踪它们之间的调用关系就显的比较关键。线上每一个请求会经过多个业务系统,并产生...

秋日芒草
昨天
6
0
告诉自己的一些建议

摆脱学生心态 尽快发挥自己价值,让公司感知自己的存在,才是王道 选择比努力重要 自己附着的平台的经济体要是一个快速崛起的行业 转行趁早,年龄越大选择成本越高 趁早大量试错,学习新领域...

林怡丰
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部