认识Spark

原创
2017/04/05 14:58
阅读数 53

Spark是什么?

Spark是一个用来实现快速而通用的集群计算平台。

一个大一统的软件栈:Spark核心是一个由多个计算任务组成的、运行在多个组合机器或者是一个计算的集群上的应用进行调度、分发以及监控的计算引擎。Spark具有速度快和通用的特点,使得各个组件可以无缝连接,节省项目时间。

Spark Code

实现了Spark的基本功能:任务调度,内存管理,错误恢复,存储系统交互等。

SparkSQL

可以支持HiveSQL和SQL等来查询数据,支持多种数据源。

Spark Streaming

Spark实时数据进行流式计算的组件。

MLlib

Spark机器学习的程序库。

集群管理器

Spark支持多种集群管理器,如自身的简易调度器,HadoopYarn,ApacheMesos等。

Spark存储层次

不仅可以将任何Hadoop上HDFS上读取文件,也支持Hadoop其他接口:本地文件,Hive,HBase等。

 

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部