文档章节

Spark不是唯一,三种新兴的开源数据分析工具

linuxprobe
 linuxprobe
发布于 2016/10/24 23:42
字数 1296
阅读 37
收藏 1
点赞 0
评论 0

物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一。比如需要流数据分析工具来改善药物发现,美国宇航局和搜寻外星文明研究所(SETI)甚至在开展合作,分析数TB复杂的外太空无线电信号流。

虽然Apache Spark在数据分析领域抢走了许多风头,那是由于IBM及其他公司在这方面投入了数十亿美元的研发资金,但几个藉藉无名的开源项目也在迅速崛起。下面是值得探讨的三种新兴的数据分析工具。

1.Grappa

大大小小的企业组织正在致力于研究从数据流提取宝贵信息的新方法,其中许多在处理集群上生成的数据,而且在日益处理商用硬件上生成的数据。这样一来,成本合理的、以数据为中心的方法受到了重视,这种方法可以改善MapReduce、甚至Spark等工具的性能和功能。Grappa开源项目这时候闪亮登场了,它可以在大众化集群上扩展数据密集型应用程序,并且提供了一种新型的抽象机制,比经典的分布式共享内存(DSM)系统更胜一筹。

Spark不是唯一,三种新兴的开源数据分析工具Spark不是唯一,三种新兴的开源数据分析工具

你可以在此获得Grappa的源代码,并找到关于它的更多信息。Grappa的起源是这样的:一群在克雷(Cray)系统上运行大数据任务方面有着丰富经验的工程师想,是不是可以与克雷系统在现成商用硬件上能够实现的分析功能一较高下。

正如开发人员特别指出:“Grappa在足够高级的层面提供了抽象,因而包括数据密集型平台所常见的许多性能优化。然而,其相对低级的接口又提供了一种方便的抽象,以便在此基础上构建数据密集型框架。(简化版)MapReduce、GraphLab和关系查询引擎的原型实现就建立在Grappa的基础上,它们的性能比原有系统更胜一筹。”

采用BSD许可证的Grappa在GitHub上可以免费获取。如果你有兴趣看看Grappa是怎么实际运行的,可以在应用程序的README文件中遵照通俗易懂的快速启动说明,构建Grappa应用程序,并在集群上运行。

2.Apache Drill

Apache Drill项目在大数据领域带来了重大的影响,以至于MapR等公司甚至把它纳入到其Hadoop发行版中。它是Apache的一个顶级项目,与Apache Spark一同应用于许多流数据场景。

Spark不是唯一,三种新兴的开源数据分析工具Spark不是唯一,三种新兴的开源数据分析工具

比如说,在今年1月份召开的纽约Apache Drill大会上,MapR的系统工程师展示了Apache Spark和Drill如何可以协同用于涉及数据包捕获和近实时查询及搜索的一种使用场合下。

Drill在流数据应用程序中之所以如此出名,是因为它是一种分布式、无模式(schema-free)的SQL引擎。开发运维和IT人员可以使用Drill,以交互方式探索Hadoop及其他NoSQL数据库(比如HBase和MongoDB)中的数据。不需要明确定义和维护模式,因为Drill可以自动充分利用嵌入到数据中的结构。它能够在操作员之间的内存中流式传输数据,并且尽量减少使用完成查询所需的磁盘。

3.Apache Kafka

Apache Kafka项目已凭借实时数据跟踪功能俨然成为一颗明星。它提供了处理实时数据的功能,具有统一、高吞吐量、低延迟等优点。Confluent及其他组织还开发了自定义工具,以便Kafka与数据流结合使用。

Spark不是唯一,三种新兴的开源数据分析工具Spark不是唯一,三种新兴的开源数据分析工具

Apache Kafka最初由LinkedIn开发,后来在2011年年初开放了源代码。它是一种经过加固和测试的工具,许多企业组织要求员工拥有Kafka方面的知识。使用Kafka的知名公司包括思科、网飞、贝宝、优步和Spotify。

LinkedIn当初开发Kafka的那些工程师还成立了Confluent,它专注于Kafka。Confluent大学为Kafka开发人员以及操作员/管理员提供培训课程。现场课程和公开课程都有提供。

免费提供最新Linux技术教程书籍,为开源技术爱好者努力做得更多更好:http://www.linuxprobe.com/

本文转载自:http://www.linuxprobe.com/spark-not-only.html

共有 人打赏支持
linuxprobe
粉丝 19
博文 257
码字总数 45072
作品 0
朝阳
Hadoop CDH5 Spark部署

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark ...

China_OS
2014/05/30
0
0
hadoop和spark的区别你搞明白了吗

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下...

左手的倒影
06/27
0
0
hadoop和spark的区别介绍

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下...

adnb34g
06/22
0
0
第二期:关于十大数据相关问答汇总,关注持续更新中哦~

NO.1 学大数据如何零基础入门? 答:学习任何东西都一样,一开始就是一道坎,我很喜欢看书,特别是容易入门的书。对于大数据,我的具体研究方向是大规模数据的机器学习应用,所以首先要掌握以...

琳达老师
05/12
0
0
Spark与Hadoop的比较(特别说一下 Spark 和 MapReduce比较)

Hadoop和Spark方面要记住的最重要一点就是,它们并不是非此即彼的关系,因为它们不是相互排斥,也不是说一方是另一方的简易替代者。两者彼此兼容,这使得这对组合成为一种功能极其强大的解决...

小海bug
06/21
0
0
【DataMagic】如何在万亿级别规模的数据量上使用Spark

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文首发在云+社区,未经许可,不得转载。 作者:张国鹏 | 腾讯 运营开发工程师 一、前言 Spark作为大数据计算引擎,凭借其快速、...

04/18
0
0
大数据框架Hadoop和Spark的异同

解决问题的层面不一样   首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算...

jbchen
2017/10/30
0
0
Spark源码分析调试环境搭建

目前常用的Spark版本有三种Cloudera、HDP和Apache,源码的获取方式可以在各自官网下载。本文选择Apache版本。 搭建环境所需要的工具如下: CentOS 7 maven 3.5.0 Java 1.8.0 Scala 2.12.2 I...

火力全開
2017/10/26
0
0
【转】Spark,一种快速数据分析替代方案

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,...

mj4738
2012/05/24
0
0
Spark及Spark Streaming核心原理及实践

  【IT168 技术】Spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,...

中国大数据
05/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

python爬取站长素材网页图片保存到ppt中

网站地址:http://sc.chinaz.com/tupian/index.html 直接上代码: import requestsfrom bs4 import BeautifulSoupfrom pptx import Presentationfrom pptx.util import Inchesimpor......

你为什么不吃药
11分钟前
1
0
Ubuntu 18.04 swap空间的修改

一、准备工作 执行“sudo swapon -s”命令,查看是否已经存在swap file 二、修改swap file # 如果第一步存在swapfile则需要先禁用sudo swapoff /swapfile# 修改swap 空间的大小为2Gs...

Iceberg_XTY
14分钟前
1
0
438. Find All Anagrams in a String - LeetCode

Question 438. Find All Anagrams in a String Solution 题目大意:给两个字符串,s和p,求p在s中出现的位置,p串中的字符无序,ab=ba 思路:起初想的是求p的全排列,保存到set中,遍历s,如...

yysue
20分钟前
0
0
RabbitMQ实战:五种模式和案例

本文来自:Rabbitmq的五种模式和案例 消息生产者p将消息放入队列 消费者监听队列,如果队列中有消息,就消费掉,消息被拿走后,自动从队列删除 (隐患,消息可能没有被消费者正确处理,已经消失了,...

spinachgit
21分钟前
0
0
android基于MVP小说网络爬虫、宝贝社区APP、仿虎扑钉钉应用、滑动阴影效果等源码

Android精选源码 android宝贝社区app源码 android仿Tinder最漂亮的一个滑动效果 android仿滴滴打车开具页,ListView粘性Header Android基于MVP模式开发的小说网络书库带缓存网络爬虫,。 Easy...

逆鳞龙
24分钟前
0
0
第三章 spring-bean之beanFactory系列(1)

前言 spring的基本问题,每次面试基本会问题。比如 - spring是什么回答是ioc,aop,第三个就是beanfactory。 - spring使用什么模式,100%的人回答是工厂模式。 - 这面的问题大家都知道。关于...

鸟菜啊
26分钟前
0
0
箭头函数

var foo = v => v;// 等同于var foo = function (v) {return v;} 如果箭头函数不需要参数或需要多个参数,就使用一个圆括号代表参数部分 var f = () => 5;// 等同于var f = functio...

litCabbage
27分钟前
0
0
软件入门的知识之程序设计语言Java和C#的简单介绍和对比[图]

软件入门的知识之程序设计语言Java和C#的简单介绍和对比[图]: 前言: 要做软件就必然会涉及到程序设计语言,它是什么?有哪些特点?又有哪几部分组成的呢?在这里我们为大家做了一个总结,希...

原创小博客
28分钟前
0
0
重写视频播放进度条

需要注意的地方,基于html vedio 标准使用期去了解一下 1.想去掉视频默认的播放条,去掉controls属性。 2.需要预加载视频加上preload="auto"属性。 1.js代码 $(function(){ init(); }); var ...

轻量级赤影
36分钟前
0
0
saltstack管理任务计划-添加&删除

1.服务端配置 >>编辑 top.sls 文件 # vim /srv/salt/top.sls //修改为如下 base: '192.168.*.*': - crontest >>编辑crontest.sls文件添加计划任务 cron-test: cron.present: - name: /bin/to......

硅谷课堂
37分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部