开始Hadoop

原创
2017/03/31 17:31
阅读数 101

为什么要用hadoop?

  1. 因为数据的快速增长,证券交易所的交易数据,微博、微信的照片数据、图书馆的电子图书等,数据越来越多,需要管理
  2. 数据的存储和分析,数据的存储 需要保证可用性,因此需要备份,当一份数据不能用,备份的 数据可以替代。hadoop提供了hdfs解决存储问题。数据量很大,就需要多台计算节点一起分析,因此就需要一种机制来调度和平衡各个节点的计算。hadoop提供了mapreduce实现分析处理。

hadoop的定义:

hadoop是提供了一个可靠的共享存储和分析功能的系统。hdfs实现存储,而mapreduce实现分析处理。

hadoop生态圈

  • Common

一组分布式文件系统和通用I/O的组件和接口

  • Avro

一种支持高效、跨语言的RPC以及永久存储数据的序列化系统

  • MapReduce

分布式数据处理模型和执行环境,运行于大型商用机集群

  • HDFS

分布式文件系统,运行于大型商用机集群

  • Pig

一种数据流处理语言和运行环境,用以检索非常大的数据集。pig运行在mapreduce和hdfs的集群上。

  • Hive

一个分布式、按列存储的数据仓库。Hive管理HDFS中的存储的数据,并提供基于sql的查询语言用以查询数据。

  • Hbase

一个分布式、按列存储数据库、Hbase使用hdfs作为底层存储,同时支持mapreduce的批量式计算和点查询

  • Zookeeper

一个分布式、可用性高的协调服务。zookeeper提供分布式锁之类的基本服务,用于构建分布式应用

  • Sqoop

在数据库和hdfs之间高效传输数据的工具

 

 

展开阅读全文
打赏
0
3 收藏
分享

作者的其它热门文章

加载中
更多评论
打赏
0 评论
3 收藏
0
分享
返回顶部
顶部