文档章节

《Hadoop与大数据挖掘》一1.2 大数据平台

暖夏未眠丶
 暖夏未眠丶
发布于 2017/06/26 15:22
字数 1146
阅读 2
收藏 0

摘要: 本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第1章 ,第1.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台。

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第1章 ,第1.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 大数据平台

大数据平台有哪些呢?
一般认为大数据平台分为两个方面,硬件平台和软件平台。硬件平台一般如Open-Stack、Amazon云平台、阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等。而软件平台则是大家经常听到的,如Hadoop、MapReduce、Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务。
Hadoop生态圈大数据平台,可以大概分为3种:Apache Hadoop(原生开源Hadoop)、Hadoop Distribution(Hadoop发行版)、Big Data Suite(大数据开发套件)。Apache Hadoop 是原生的,即官网提供的,只包含基本的软件;Hadoop Distribution是一些软件供应商提供的,具有的功能相对多,这个版本有收费版也有免费版,用户可选;而大数据开发套件则是一些大公司提供的集成方案,提供的功能更多,但是相应的也比较贵。
Apache Hadoop是开源的,用户可以直接访问或更改代码。它是完全分布式的,配置包含用户权限、访问控制等,再加上多种生态系统软件支持,比较复杂。这里涉及版本不兼容性问题。所以该版本比较适合学习并理解底层细节或Hadoop详细配置、调优等。
Hadoop Distribution版本简化了用户的操作以及开发任务,比如可以一键部署等,而且有配套的生态圈支持以及管理监控功能,如业内广泛使用的HDP、CDH、MapR等平台。CDH是最成型的发行版本,拥有最多的部署案例,而且提供强大的部署、管理和监控工具,其开发公司Cloudera贡献了自己的可实时处理大数据的Impala项目。HDP是100%开源Apache Hadoop的唯一提供商,其开发公司 Hortonworks开发了很多增强特性并提交至核心主干,并且Hortonworks为入门者提供了一个非常好的、易于使用的沙盒。MapR为了获取更好的性能和易用性而支持本地UNIX文件系统而不是HDFS(使用非开源的组件),并且可以使用本地UNIX命令来代替Hadoop命令。除此之外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。当需要一个简单的学习环境时,就可以选用这个版本,当然,针对一些企业也可以选择这个版本的收费版,也是有很多软件支持的。
Big Data Suite(大数据套件)是建立在Eclipse之类的IDE之上的,其附加的插件极大地方便了大数据应用的开发。用户可以在自己熟悉的开发环境之内创建、构建并部署大数据服务,并且生成所有的代码,从而做到不用编写、调试、分析和优化MapReduce代码。大数据套件提供了图形化的工具来为你的大数据服务进行建模,所有需要的代码都是自动生成的,只需配置某些参数即可实现复杂的大数据作业。当企业用户需要不同的数据源集成、自动代码生成或大数据作业自动图形化调度时,就可以选择使用大数据套件。

原文链接

本文转载自:

暖夏未眠丶
粉丝 0
博文 250
码字总数 427
作品 0
太原
私信 提问
Hadoop实战开发教程 Hadoop学习视频资料汇总

Hadoop实战开发教程 Hadoop学习视频汇总 Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标) 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技...

beifangbubai
2014/07/28
3.6K
4
数据来的太凶猛!关于2017年大数据的十大预测

数据如何变现,价值怎么挖掘?2017大数据十大趋势,兴许给你惊艳的解答~ 随着对不同类型、不同体量数据的结构化存储、批量处理以及价值挖掘需求的增多,2016年注定是大数据里程碑式的一年。 ...

行者武松
2018/03/06
0
0
开启大数据掘金时代

2012年《纽约时报》刊文称:“大数据时代已经降临” 2014年,Intel、IBM、微软、阿里巴巴等行业巨头纷纷布局大数据 2013年,大数据相关高级职位的薪酬与其他同类技术职位相比平均高出43%以上...

佳华ICT
2014/05/19
2.4K
14
SAP实时企业技术峰会 展示实时数据平台

  【IT168 资讯】2012年11月29日,SAP实时企业技术峰会在北京富力万丽酒店召开,会议围绕实时业务、大数据、移动商务、信息治理等热点话题展开,帮助企业轻松应对大数据挑战,充分挖掘大数...

作者:王玉圆
2012/11/30
0
0
Gartner报告:东方金信进入Hadoop世界厂商名录

2月1日,国际知名咨询机构Gartner发布Hadoop发行版市场指南《Market Guide for Hadoop Distribution》。东方金信作为大数据领域代表厂商,在此报告中与Cloudera、Oracle、AWS等并列提及,正式...

玄学酱
2018/04/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

代理模式之JDK动态代理 — “JDK Dynamic Proxy“

动态代理的原理是什么? 所谓的动态代理,他是一个代理机制,代理机制可以看作是对调用目标的一个包装,这样我们对目标代码的调用不是直接发生的,而是通过代理完成,通过代理可以有效的让调...

code-ortaerc
今天
4
0
学习记录(day05-标签操作、属性绑定、语句控制、数据绑定、事件绑定、案例用户登录)

[TOC] 1.1.1标签操作v-text&v-html v-text:会把data中绑定的数据值原样输出。 v-html:会把data中值输出,且会自动解析html代码 <!--可以将指定的内容显示到标签体中--><标签 v-text=""></......

庭前云落
今天
7
0
VMware vSphere的两种RDM磁盘

在VMware vSphere vCenter中创建虚拟机时,可以添加一种叫RDM的磁盘。 RDM - Raw Device Mapping,原始设备映射,那么,RDM磁盘是不是就可以称作为“原始设备映射磁盘”呢?这也是一种可以热...

大别阿郎
今天
10
0
【AngularJS学习笔记】02 小杂烩及学习总结

本文转载于:专业的前端网站☞【AngularJS学习笔记】02 小杂烩及学习总结 表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> <tr ng-repeat="x in names | orderBy ......

前端老手
昨天
14
0
Linux 内核的五大创新

在科技行业,创新这个词几乎和革命一样到处泛滥,所以很难将那些夸张的东西与真正令人振奋的东西区分开来。Linux内核被称为创新,但它又被称为现代计算中最大的奇迹,一个微观世界中的庞然大...

阮鹏
昨天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部