文档章节

为什么学习Spark?

vieky
 vieky
发布于 2014/12/05 14:52
字数 1028
阅读 86
收藏 0
点赞 0
评论 0

讲到Spark,我们要先讲将大数据,因为Spark是一个处理大数据的平台。那什么是大数据呢?大数据也称为海量数据,通常都是指TG级、PB级的数据,但是随着时间的流逝和验证,一些人们对大数据也发生了观念上的转变,而是把对企业有价值的数据称为大数据,它不一定大,但要有价值。

        近二十年来,随着计算机技术和互联网技术的高速发展,计算机在记录着人类的日常活动,如手机通讯、网站访问、微博留言、视频上传、商品买卖、物流运送。。。,无处不在的社会活动和商业活动正在源源不断地产生着各种各样的数据,而这些数据正以不可思议的速度积累着,从GB级向着TB级、PB级发展。

        面对如此海量的数据,一方面是这些信息如同巨大的宝藏等待人们去挖掘,如果能善以利用,这些数据将引导现在社会的科研和商业活动,进入一个黄金时代;另一方面,这些数据的迅猛发展,挑战着包括数据中心基础设施和数据分析基础架构在内的数据处理的各个环节。幸运的是,近几年云计算技术的发展和各种计算框架的出现,使得分析和掌握大数据中蕴藏的无尽信息、知识、智慧成为可能。

        下面我们看看两个图:

为什么学习Spark? - mmicky - mmicky 的博客

这是一个google的热力图,使用专用设备跟踪参与调查的访问者的眼球在网页上的停留轨迹。这种图直接显示了用户的视觉体验——他们在页面的哪些区域停留的时间更长。

为什么学习Spark? - mmicky - mmicky 的博客

另一个是微博的传播图,可以看出微博的传播途径的规律。

        很明显,通过这些数据的分析,得到其中的规律和潜在的信息,我们可以更好的将有限的资源利用到更有效果的地方。

        那么如何去挖掘这些信息呢?让我们看看大数据分析平台一览图

为什么学习Spark? - mmicky - mmicky 的博客

        面对琳琅满目、令人有些眼花缭乱的各种产品,该做何种选择?我们选择了Spark。为什么?

1:All-In-One的解决方案

        谈到Spark,大多数的人首先想到的是内存计算框架,计算速度很快等概念。但对于系统架构师或IT信息部门主管来说,更吸引其眼光的应该是Spark的All-In-One的解决方案。我们来看看最新的Spark Stack:

为什么学习Spark? - mmicky - mmicky 的博客

除了核心的Spark Core Engine外,Spark提供了应用在不同场景上的处理工具:

  • 应用于流式计算的Spark Streaming

  • 应用于即席查询(Ad-hoc)的Spark SQL

  • 应用于机器学习(数据挖掘)的MLlib

  • 应用于图处理的GraphX

  • 将R扩展成并行计算的SparkR

  • 还有权衡精度和速度的查询引擎BlinkDB

这意外着采用Spark将减少人力和资金的投入,降低的系统的复杂性,减轻维护的工作量。

为什么学习Spark? - mmicky - mmicky 的博客

2:天下武功,唯快不破

运行速度快,开发速度快是Spark最耀眼的特点:

  • Spark号称在磁盘上的运行速度是MapReduce的10倍以上,在内存上的运行速度是MapReduce的100以上;这不仅仅是Spark是基于内存计算,更因为是Spark采用了DAG算法减少了IO开销。

为什么学习Spark? - mmicky - mmicky 的博客

  • Spark应用程序d的开发量比MapReduce少2-5倍

为什么学习Spark? - mmicky - mmicky 的博客

3:迅猛发展的趋势

  • 2009年由Berkeley’s AMPLab开始编写最初的源代码

  • 2010年开放源代码

  • 2013年6月进入Apache孵化器项目

  • 2014年成为Apache的顶级项目之一

  • 目前已经有30+公司100+开发者在提交代码

  • Hadoop最大的厂商Cloudera宣称加大Spark框架的投入来取代Mapreduce

  • Spark1.0.0发布。。。

本文转载自:http://mmicky.blog.163.com/blog/static/15029015420144120426570/

共有 人打赏支持
vieky
粉丝 10
博文 54
码字总数 47106
作品 0
长沙
高级程序员
2018最新版本的spark面试题及答案

Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...

嘿你好夏天 ⋅ 04/03 ⋅ 0

Spark2.1.0之运行环境准备

学习一个工具的最好途径,就是使用它。这就好比《极品飞车》玩得好的同学,未必真的会开车,要学习车的驾驶技能,就必须用手触摸方向盘、用脚感受刹车与油门的力道。在IT领域,在深入了解一个...

beliefer ⋅ 05/04 ⋅ 0

教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。 分享之前我还是要推荐下我自己创建的大数据学习交...

风火数据 ⋅ 05/20 ⋅ 0

你不能错过的 spark 学习资源

1. 书籍,在线文档 2. 网站 3. Databricks Blog 4. 文章,博客 5. 视频

u012608836 ⋅ 04/12 ⋅ 0

【DataMagic】如何在万亿级别规模的数据量上使用Spark

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文首发在云+社区,未经许可,不得转载。 作者:张国鹏 | 腾讯 运营开发工程师 一、前言 Spark作为大数据计算引擎,凭借其快速、...

⋅ 04/18 ⋅ 0

如何在万亿级别规模的数据量上使用Spark

一、前言 Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思...

风火数据 ⋅ 05/14 ⋅ 0

hadoop和spark的区别介绍

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下...

adnb34g ⋅ 前天 ⋅ 0

『 Spark 』3. spark 编程模式

写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一...

董黎明 ⋅ 06/11 ⋅ 0

【短文】Spark危机与机遇杂谈

MLFlow 昨天发了一篇文章Spark团队新作MLFlow 解决了什么问题 描述了我对MLFlow的一些看法,现在想来,Spark团队是非常聪明的,AI同学都有自己的社区,自己的生态,Spark则是在工程研发群体具...

祝威廉 ⋅ 06/07 ⋅ 0

如何在万亿级别规模的数据量上使用Spark?

  【IT168 技术】   一、前言   Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解...

网络大数据 ⋅ 05/30 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

OSChina 周日乱弹 —— 这么好的姑娘都不要了啊

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @TigaPile :分享曾惜的单曲《讲真的》 《讲真的》- 曾惜 手机党少年们想听歌,请使劲儿戳(这里) @首席搬砖工程师 :怎样约女孩子出来吃饭,...

小小编辑 ⋅ 21分钟前 ⋅ 1

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部