文档章节

快扔掉MapReduce,拥抱Spark吧

Spark亚太研究院
 Spark亚太研究院
发布于 2014/06/15 10:33
字数 1119
阅读 241
收藏 2

快扔掉MapReduce,拥抱Spark吧!

来源 51CTO

  Apache软件基金会正式宣布Spark的首个生产发行版本已经准备就绪,这款分析软件能够大大加快作业在Hadoop数据处理平台上的运行速度。

  作为拥有“Hadoop瑞士军刀”美誉的软件项目,Apache Spark能够帮助用户创建出性能卓越的数据分析作业,其运行速度相较原本运行在标准Apache Hadoop MapReduce上的水平能够高出上百倍。

  取代Mapreduce

  目前业界对于MapReduce持广泛批评态度,认为它在执行作业时采取的批处理方式属于Hadoop集群中的性能瓶颈所在——这同时意味着实时数据分析机制根本无法实现。

  Spark的出现为MapReduce提供了一套理想的替代方案,它以五秒或者更短时间为周期、通过微批量爆发方式执行处理作业。它还提供比Twitter Storm等实时、面向流的Hadoop框架更为出色的稳定性表现。

  Cloudera宣布抛弃MapReduce,拥抱Spark

快扔掉MapReduce,拥抱Spark吧!

  2014年4月25日,Cloudera正式宣布抛弃MapReduce,投入Spark的怀抱。

  51CTO为此专访了前Intel研究院,现Databricks研究员连城。连城老师表示,理论已经证明MapReduce模型可以模拟一切分布式计算(但未必可以高效模拟)。Spark基于RDD的计算图可以轻松、完整地表达MapReduce模型,而且由于对分布式数据共享做了更高效的抽象,其效率比MapReduce只高不低。更多内容请阅读专访原文>>

  Spark可以被用于处理多种作业类型,其中包括实时数据分析、配合软件库实现更深层次的计算作业——例如机器学习与图形处理。

  利用Spark,开发人员可以通过Java、Scala或者Python等语言进行数据分析作业编写,并使用超过80种高级运算符。

  Spark 1.0带来的变革

  在1.0版本当中,Apache Spark目前能够提供稳定的API(即应用程序编程接口),开发人员可以利用它将自己的应用程序与Spark相对接。已有的标准库也得到了很大程度上的增强。

  Spark 1.0版本中的另一项新特性是提供用于访问结构化数据的Spark SQL组件,它允许用户在分析工作中同时对结构化与非结构化数据进行查询。

  Apache Spark与Hadoop的分布式文件系统(简称HDFS)全面兼容,同时还能够与其它Hadoop组件——包括YARN(全称为Yet Another Resource Negotiator)以及HBase分布式数据库——并行协作。

  什么是Spark

  Spark最初是由加利福尼亚大学伯克利分院的AMP(即算法、机器与人)实验室开发而成的,Apache则于2013年6月将其纳入了孵化器培养项目。目前包括Cloudera、Pivotal、IBM、英特尔以及MapR在内的多家IT厂商都已经将Spark引入自己的Hadoop堆栈。作为一家由部分Spark开发人员建立起来的公司,Databricks专门负责为该软件提供商业支持服务。

  除了前面提到的企业,雅虎与美国宇航局还利用该软件执行日常数据操作任务。

  与其它所有Apache软件一样,Apache Spark同样基于Apache License 2.0版本。

【SPARK亚太研究院】

Spark亚太研究院,作为国内首家Spark技术研究及推广机构,在帮助企业规划、部署、开发、培训和使用Spark为核心,同时提供Spark源码研究和应用技术训练。

近期活动:

6月24日  9:30--11:30 免费在线讲座

革命Hadoop, Spark如何100倍提高云计算处理速度!

站内信报名

本文转载自:http://www.itworld.com/420977/apache-lights-fire-under-hadoop-spark

Spark亚太研究院
粉丝 76
博文 73
码字总数 35236
作品 0
朝阳
技术主管
私信 提问
MapReduce和Spark的区别

性能: Spark是在内存中处理数据的,而MapReduce是通过map和reduce操作在磁盘中处理数据,所以正常情况下Spark的处理速度会比mapreduce快。但是当数据量大,不能一次性加载到内存的时候,Spa...

无精疯
2019/04/15
132
0
大数据框架Hadoop和Spark的异同

解决问题的层面不一样   首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算...

jbchen
2017/10/30
31
0
Spark与Hadoop的比较(特别说一下 Spark 和 MapReduce比较)

Hadoop和Spark方面要记住的最重要一点就是,它们并不是非此即彼的关系,因为它们不是相互排斥,也不是说一方是另一方的简易替代者。两者彼此兼容,这使得这对组合成为一种功能极其强大的解决...

小海bug
2018/06/21
243
0
大数据技术学习,大数据处理为何选择Spark,而不是Hadoop

大数据处理为何选择Spark,而不是Hadoop。 一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多...

董黎明
2018/10/20
37
0
hadoop和spark的区别介绍

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下...

adnb34g
2018/06/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

spring-boot-maven-plugin not found的解决方案。

通过IDE创建一个springboot项目, <plugin> <groupId>org.springframework.boot</groupId>//这行红色 <artifactId>spring-boot-maven-plugin</artifactId>//这行红色</plugin> 提示sprin......

一片云里的天空
今天
52
0
OSChina 周三乱弹 —— 我可能是个憨憨

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @宇辰OSC :分享Hare Je的单曲《Alan Walker-Faded(Hare Je remix)》: #今日歌曲推荐# 可以放松大脑的一首纯音乐 《Alan Walker-Faded(Har...

小小编辑
今天
99
0
搞定SpringBoot多数据源(3):参数化变更源

春节将至,今天放假了,在此祝小伙伴们新春大吉,身体健康,思路清晰,永远无BUG! 一句话概括:参数化变更源意思是根据参数动态添加数据源以及切换数据源,解决不确定数据源的问题。 1. 引言...

mason技术记录
昨天
99
0
sql 基础知识

sql 基础知识 不要极至最求一条sql语句搞定一切,可合理拆分为多条语句 1. sql 变量定义与赋值 Sql 语句中,直接在SELECT使用@定义一个变量,如:[@a](https://my.oschina.net/a8856225a)。 ...

DrChenXX
昨天
57
0
MacOSX 安装 TensorFlow

TensorFlow是一个端到端开源机器学习平台。它拥有一个包含各种工具、库和社区资源的全面灵活生态系统,可以让研究人员推动机器学习领域的先进技术的。 准备 安装 Anaconda TensorFlow 安装的...

叉叉敌
昨天
79
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部