文档章节

盘点九大热门开源大数据技术

iris_1992
 iris_1992
发布于 2014/12/29 16:08
字数 1575
阅读 90
收藏 3

随着全球企业和个人数据的爆炸式增长,数据本身正在取代软件和硬件成为驱动信息技术行业和全球经济的下一个大“油田”。

与PC、web等断层式信息技术革命相比,大数据的最大的不同是,这是一场由“开源软件”驱动的革命。从IBM、Oracle等巨头到雨后春笋般的大数据创业公司,开源软件与大数据的结合迸发出惊人的产业颠覆性力量,甚至VMware这样的过去完全依赖专有软件的厂商都开始拥抱开源大数据工具。

下面,我们就列举九大最热门的大数据开源技术供大家参考。

一、Hadoop


Apache Hadoop 是一个能够对大量数据进行分布式处理的开源软件框架。由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入,Hadoop的开发者Doug Cutting最初开发Hadoop是为了满足开源web搜索引擎Nutch的集群处理需求,Cutting实现了MapReduce功能和分布式文件系统(HDFS),并整合成为Hadoop。Hadoop的命名灵感来自Cutting儿子的玩具大象。通过MapReduce,Hadoop将大数据分解成小块分配给各个通用服务器节点进行分布处理。Hadoop是目前最流行的大数据(包括非结构化、半结构化和结构化数据)存储和处理技术。Hadoop的开源授权方式是Apache License2.0。


二、R

R是开源编程语言和软件环境,被设计用来进行数据挖掘/分析和可视化。R是S语言的一种实现。而S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。但S-PLUS是一个商业软件,相比之下开源的R语言更受欢迎,被人们誉为“统计界的Red Hat”。

在KDNuggets2012年做的“过去与十二个月你在实际项目中使用的数据挖掘/分析工具”的调查中,R以30.7%的得票率荣登榜首,超过微软Excel(29.8%)和Rapidminer(2010和2011年排名第一)。值得注意的是,今年排名前五名的数据挖掘工具中有四个是开源软件。此外R还在击败SQL和Java,在最受欢迎的数据挖掘应用编程语言排行榜中排名第一。


三、Cascading


作为Hadoop的开源软件抽象层,Cascading允许用户使用任何基于JVM的语言在Hadoop集群上创建并执行数据处理工作流。Cascading能隐藏MapReduce任务底层的复杂性。Chris Wensel设计Cascading的目的是成为MapReduce的一个备用API。Cascading经常被用于广告定向统计、日志文件分析、生物信息学分析、机器学习、预测分析、web内容文本挖掘以及ETL应用。Cascading的商业支持由Concurrent公司提供,该公司由Cascading的设计者Wensel创建。使用Cascading的知名网站包括Twitter和Etsy。Cascading在GNU下开源。


四、Scribe

Scribe是Facebook开发的一种服务器软件,2008年发布。Scribe能实时聚合来自大量服务器的日志文件。Facebook设计Scribe的目的是应对自身的扩展性挑战,目前Facebook使用Scribe来处理每天数以百亿计的消息。Scribe在Apache License2.0下开源。


五、ElasticSearch

ElasticSearch基于ApacheLucene,开发者是Shay Banon。ElasticSearch是一个分布式的RESTful开源搜索服务器,同时也是一个可扩展的解决方案,无需特别配置就可支持支持接近实时的搜索和多租户。很多公司都采用了ElasticSearch,包括StumbleUpon和火狐Mozilla。ElasticSearch在Apache License2.0授权方式下开源。


六、Apache HBase

HBase是运行于HDFS之上的,可扩展的,面向列的,分布式非关系型数据库。HBase由Java语言写成,支持大表(Big Table)的结构化数据存储。HBase的优点是能进行容错存储,并能快速访问海量Sparse数据。HBase是过去几年中涌现的NoSQL数据库的代表之一。2010年Facebook采用HBase搭建消息平台,HBase在Apache License2.0下开源。


七、Apache Cassandra

Apache Cassandra是Facebook开发的开源的分布式数据库管理系统,用来实现用户收件箱内搜索功能,Cassandra同时也是一个NoSQL数据库。2010年,Facebook放弃了Cassandra转而采用HBase。但是Cassandra依然被一些公司采用,例如Netflix使用Cassandra作为视频服务的后台数据库。Cassandra在Apache License2.0下开源。


 八、MongoDB


MongoDB由DoubleClick创始人开发,是一个流行的开源NoSQL数据库。MongoDB通过动态模式BSON在类JSON文档中存储结构化数据。MongoDB被很多大企业采用,包括MTV Networks、Craigslist、迪斯尼互动媒体集团、纽约时报和Etsy。MongoDB在GNU下开源,由10gen公司提供商业版授权。


九、Apache CouchDB


Apache CouchDB也是一个开源NoSQL数据库。使用JSON存储数据,用JavaScript作为查询语言,API使用MapReduce和HTTP。CouchDB由前IBM Lotus Notes开发者Damien Katz开发,作为大规模对象数据库的存储系统。注明媒体集团BBC就使用CouchDB作为动态内容平台,CouchDB在Apache License2.0下开源。


本文转载自:

iris_1992
粉丝 1
博文 25
码字总数 23873
作品 0
无锡
程序员
私信 提问
独家 | 一文带你盘点最新热门技术话题,技术圈潮人必读!

作者:Lindsay Smith 文章来源:微信公众号 数据派THU 翻译:王雨桐 校对:丁楠雅 ---- 本文对比2018第四季度和2019第一季度中DZone上不同技术话题的热门程度,分析哪些是当前的流行话题,哪...

子夜初商南
08/26
0
0
2014最热门的图表是什么?

盘点2013-2014最热门的图表应用,从大数据分析到行业应用再到移动平台,“ 热门图表应用交流会” 帮助企业用户最大化图表产品价值,详情慧都控件网首页

momosunny
2014/08/08
378
2
GIAC 2017全球互联网架构大会

12月22至23日,GIAC全球互联网架构大会将在上海举行。GIAC 全球互联网架构大会是高可用架构技术社区推广的面向架构师、技术负责人及高端技术从业人员的技术架构大会。GIAC于2016年12月成功举...

活动家
2017/11/24
13
0
GIAC2017全球互联网架构大会12月在上海举行,最新日程抢先看!

12月22日至23日,多为业界技术大咖将齐聚上海,共同探讨技术变革新趋势。 12月22日至23日,高可用架构和msup联合主办的GIAC 全球互联网架构大会将于上海举行。GIAC 全球互联网架构大会是高可...

行者武松
2018/04/18
0
0
2017年IT人年终总结,一个都不知道的你这一年就白过了

移动互联时代,每天都会涌现大量新词热词,我们IT圈也不例外,2017年就要过去了,是时候来回顾下这一年都发生了什么 首先来看看2017年互联网的热词与流行语,原来2017年的年轻人们聊天最经常...

uzv80px5v412ne
2017/12/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

parseint和isNaN用法

本文转载于:专业的前端网站➭parseint和isNaN用法 <!doctype html><html><head><meta charset="utf-8"><title>无标题文档</title></head><body><script> var a='12'; alert......

前端老手
48分钟前
7
0
Kylin 精确去重在用户行为分析中的妙用

作者:史少锋,Apache Kylin committer & PMC,2019/10/11 在上次文章《如何在 1 秒内做到大数据精准去重》中,我们介绍了 Apache Kylin 为什么要支持大数据集上的精确去重,以及基于 Bitmap...

ApacheKylin
59分钟前
5
0
学习记录(二) es6基本语法(rest参数,模板化,axios模块,拦截器)

日常学习记录 模块化:把一个大文件分成多个小文件,按照一定规范进行拼接 es5写法: 导出:module.exports = 数据 导入:require("路径") /路径未添加后缀名时 //默认添加.js //把路径作为文件名...

Pole丶逐
今天
4
0
以程序员的角度怎么购买一台「性价比高的电视」

前俩天有小伙伴在我的文章下留言,说能否把 【国内电视机都介绍一下】,今天我已在TV端开发多年的程序员的角度。谈谈已程序员的角度如何购买一台性价比高的电视。 国内大的电视机品牌介绍 长...

我们都很努力着
今天
4
0
PhotoShop 色调:理解直方图/RGB通道信息

一、直方图:图表的形式,展示图像像素分布的情况 1.平均值:表示平均亮度 2.标准偏差值:表示亮度值范围内的中间值 3.像素: 表示用于计算直方图的像素总数 4.色阶:显示指针下面的区域亮度...

东方墨天
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部