文档章节

你想知道的关于Hadoop数据资源池的一切

 数据分析师
发布于 2015/05/30 20:30
字数 1179
阅读 2
收藏 0
点赞 0
评论 0

随着Hadoop数据资源池的概念进入主流IT,越来越多的企业开始试水Hadoop。但很多只是将一部分数据池化,还没有开发出成熟的Hadoop环境。

数据资源池使用基于开源Hadoop框架和商业硬件,以池化资源的形式处理、存储和管理大数据,尤其是支持分析应用。支持者认为数据池架构提供了一个更便宜的替代传统数据仓库的选项,能够处理结构化、半结构化以及非结构化数据。不过,数据资源池的概念还相对较新,带来利益的同时也隐藏着陷阱。关注BI和大数据的咨询公司Eckerson 集团首席咨询师Wayne Eckerson表示:“在过去七年里,Hadoop取得了长足的进步,但它仍有很长的路要求。”

你想知道的关于Hadoop数据资源池的一切

在接受TechTarget采访时,Eckerson讲述了他个人对于数据资源池的理解,以及可能影响该进程的阻力。对于公司是否适合采用Hadoop资源池的问题,他也给出了建议。

TechTarget:从您接触到的公司来看,Hadoop资源池到底有多流行?

Wayne Eckerson:很 多公司已经或打算使用Hadoop.只有当你把所有数据都放入Hadoop集群的时候,数据资源池才是真实的。公司当然对它有兴趣,尤其是目前还没有数据 仓库的公司,它们会选择从Hadoop开始,而不是关系型数据库,当然前提是它们有掌握Hadoop的人才。不过我认为,供应商推Hadoop的力度大于 用户对Hadoop的需求。泡沫的成分还是有的。

TechTarget:公司为什么要考虑数据池,数据池能够给公司带来的最大好处是什么?

Eckerson:理论上这种方法大有裨益。你把数据放入资源池,不需要再移动它。你需要做的只是把数据提取到支持业务的正确的处理系统中。数据资源池的好处是你把数据存储在 数据产生的地方,然后把处理流程加在数据上,这样能够让公司更少地移动数据。但是问题是,在过去二十年里,我们积累了如何从数据中提取答案的经验,但这些 经验并不完全适用于数据资源池。公司要重新确认流程,保证能得到正确答案。不过因为成本低,所以人们还是很愿意去尝试它。

企业在部署Hadoop时,对数据资源池的概念是否会有误解?

Eckerson:对 于任何新技术,人们都不免会希望它能“包治百病”。但事实并非如此,Hadoop需要专业的技术人才,而且有很多功能还不成熟,比如安全、管理、容灾和恢 复、交互查询等。现在,这些功能正逐渐被添加到Hadoop平台上,它现在正在向企业级方向发展。不过它仍然没有传统数据仓库环境那么成熟。你不能只给人 们一个生数据的入口,就期望他们能完成任何事。你需要构建不同的数据视图,不同的结构,不同部门的人员看到不同的数据。这和数据仓库的道理是一样的,只是 用到的技术不同。我认为最大的误解是认为Hadoop是适用于业务用户的环境,其实不是,Hadoop还是需要掌握固定技能的专家的。

数据分析资源池适用于所有企业吗,还是只适用于部分企业?

Eckerson:任何公司,只要有时间和资源,都可以尝试数据资源池。公司要以开放的心态迎接新技术,需要花费时间进行试验,了解数据资源池能够给自己带来什么。早期的Hadoop使用者已经在大范围部署Hadoop了。但也有公司忙于应对已有的数据仓库,无暇考虑Hadoop。这是企业文化的问题,有些对新技术比较积极,有些则不然。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

---------------------------------------------------------------------------------------------------------------------------------

了解更多商业智能行业资讯,BI解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com

或扫一扫,关注“FineBI专业商业智能解决方案”(微信号:fine_bi

 让数据分析成为你的指南 - IBFINER - 商业智能

© 著作权归作者所有

共有 人打赏支持
粉丝 29
博文 1645
码字总数 2338861
作品 0
邢台
Hadoop到底是什么? 到底能做什么?

调研Hadoop颇久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是这三块,至于投入和风险也会随之出来(浓缩了我几十页的调研方案啊!!!) hadoop是什么? Hadoop是一个开...

天呀鲁哇 ⋅ 2015/03/13 ⋅ 3

关于 hadoop reduce 阶段遍历 Iterable 的 2 个“坑”

之前有童鞋问到了这样一个问题:为什么我在 reduce 阶段遍历了一次 Iterable 之后,再次遍历的时候,数据都没了呢?可能有童鞋想当然的回答:Iterable 只能单向遍历一次,就这样简单的原因。...

xrzs ⋅ 2013/05/18 ⋅ 3

Hadoop集群部署模型纵览3

在前两篇文章中,我们介绍了Hadoop集群部署的3个方式,即《存储/计算绑定和单一计算的Hadoop集群》,《存储/计算分离的Hadoop集群部署》。本文我们着重讲解最后一种方式,即构建自定义的Had...

vBigData ⋅ 2013/10/22 ⋅ 0

Hadoop Job Scheduler作业调度器

Hadoop Job Scheduler Hadoop的作业调度器,可以以插件的方式加载,常见的作业调度器有三种: 默认调度算法FIFO 计算能力调度算法Capacity Scheduler(Yahoo!开发) 公平份额调度算法Fair Sche...

vieky ⋅ 2013/03/04 ⋅ 0

hadoop调度器及压缩

作业的调度 调度器: FIFO(first in first out)(早期版本使用) 按照作业提交的顺序,使用FIFO(先进先出)调度算法来运算作业. 典型情况下,每个作业都会使用整个集群,因此作业必须等待,知道轮到自...

迪allen ⋅ 2014/03/27 ⋅ 0

[Spark][翻译]Spark内存分析模型(<=1.5版本)

spark内存分析模型(<=1.5版本)-无原文版本 背景 分析spark的内存模型,文章来源于https://0x0fff.com/spark-architecture/这里为了阅读流畅,把原文英文去除了,大家有疑问可以对照查看。 ...

zemel ⋅ 2016/08/01 ⋅ 0

Hadoop MapReduce优化和资源调度器

Hadoop Shuffle过程 1.Hadoop MapReduce Shuffle过程 Hadoop Shuffle过程 Map Shuffle过程图2 2.Shuffle过程要点记录 每个Map Task把输出结果写到内存中的环形缓冲区。 当内存环形缓冲区写入...

溯水心生 ⋅ 01/14 ⋅ 0

yarn fair资源池drf调度策略作业不执行的问题调查和分析

问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分...

鸿初 ⋅ 05/11 ⋅ 0

请教关于分布式的初级问题

一般的网站的网页是不是应该是在一台服务器上的而不是分布式的?所以所有访问网页的请求都是DNS解析到同一个IP? 因为我最近研究Hadoop感觉分布式只是把数据分布式存储,并没有把网站的页面分...

qinuxman ⋅ 2013/11/01 ⋅ 7

CPU-bound(计算密集型) 与I/O bound(I/O密集型)

前言 在一个技术交流群里面看到有人在问,如何设置应用的线程池大小?有人回复了说,不谈并发类型(计算密集型或者IO密集型)的话,这个问题纯属瞎扯淡。下面是一些个人理解与在网上看到的比...

rickiyeat ⋅ 05/09 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

一张图看懂CDN全站加速产品解决方案

原文链接 本文为云栖社区原创内容,未经允许不得转载。

阿里云云栖社区 ⋅ 16分钟前 ⋅ 0

一张图看懂CDN全站加速产品解决方案

原文链接

猫耳m ⋅ 17分钟前 ⋅ 0

开启Swarm集群以及可视化管理

在搭建的两台coreos服务器上开启swarm集群 前置条件: docker均开启2375端口 同一个局域网内 主服务器上安装Portainer容器 安装Portainer容器执行: docker run -d -p 9000:9000 --restart=a...

ykbj ⋅ 34分钟前 ⋅ 0

单例设计模式

1、单例模式确保某一个类只有一个实例,而且自行实例化并向整个系统提供这个实例 2、饿汉式单例类 在这个类被加载时,静态变量instance会被初始化,此时类的私有构造子会被调用 饿汉式是典型...

职业搬砖20年 ⋅ 39分钟前 ⋅ 0

前端基础(四):前端国际规范收集

字数:1142 阅读时间:5分钟 前言 由于前端技术的灵活性和杂乱性,导致网上的许多解决方案不够全面甚至是完全错误,容易起到误导作用。所以,我对搜索到的解决方案往往是存疑态度。那么,如何...

老司机带你撸代码 ⋅ 42分钟前 ⋅ 0

Failed to open/create Network-VirtualBox Host-Only

虚拟机版本 : Oracle Vm VirtualBox 5.2.12 报错时机:开网卡二,重启虚拟机报错 "Failed to open/create the internal network 'HostInterfaceNetworking-VirtualBox Host-Only Ethernet Ada......

p至尊宝 ⋅ 45分钟前 ⋅ 0

springMVC接收表单时 Bean对象有Double Int Char类型的处理

前台ajax提交表单price为double类型 后台controller就介绍不到 400错误 前台 实体类: public class ReleaseMapIconConfig{ private String id; private long maxValue; private long minVal......

废柴 ⋅ 50分钟前 ⋅ 0

ZOOKEEPER安装

工作需要在ubuntu上配置了一个zookeeper集群,有些问题记录下来。 1. zookeeper以来java,所以首先要安装java。但是ubuntu系统有自带的jdk,需要通过命令切换java版本: $ sudo update-alter...

恰东 ⋅ 53分钟前 ⋅ 0

linux 进程地址空间的一步步探究

我们知道,在32位机器上linux操作系统中的进程的地址空间大小是4G,其中0-3G是用户空间,3G-4G是内核空间。其实,这个4G的地址空间是不存在的,也就是我们所说的虚拟内存空间。 那虚拟内存空间...

HelloRookie ⋅ 53分钟前 ⋅ 0

myatis #{}与${}区别及原理

https://blog.csdn.net/wo541075754/article/details/54292751

李道福 ⋅ 57分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部