当大数据遇见 Hadoop

原创
2016/07/21 17:03
阅读数 88

一些组织将“人力资本”视为无形资产,这是其成功的关键因素,它们大多认为员工
是其最宝贵的财富。另一个通常不会在公司资产负债表上列出的关键资产就是公司所拥有
的信息。一些因素能够加强组织所拥有信息的效力,它们包括信息的可信度、体量、可访
问性,以及该组织在合理的时间内利用所掌握的信息做出智能决策的能力。
我们很难掌握各种组织产生数字信息的绝对数量。IBM 指出仅仅过去两年就产生了世
界上90%的数字化数据。众多组织正在收集、产生和存储可能成为战略资源的数据。由
Michael Daconta、Leo Obrst 和Kevin T. Smith 在十余年之前撰写的一部书籍The Semantic
Web: A Guide to the Future of XML, Web Services, and Knowledge Management (Indianapolis:
Wiley,2004)中的一句格言说,“拥有最优质信息,知道如何查找它们,而且能够快速利用
它们的组织才会取得胜利。”
知识就是力量。而问题是随着海量数据的不断收集,传统的数据库工具已经不能够足
够快速地管理或处理这些信息了。其结果是很多组织正在被数据淹没。这些组织没能很好
地利用数据,而且没有足够快速地梳理出数据中的头绪,自然也无法体会数据所呈现的
威力。
术语“大数据”用于描述非常庞大的数据集,它们大到对典型的和传统的数据存储、
管理、查询、分析及其他处理方法产生了挑战。大数据典型的特征在于数字信息的量级——
可以来自多种源和数据格式(结构化的和非结构化的),而且处理和分析数据可以发现其中
的内涵和模式,这些有助于做出明智的决策。
大数据带来的挑战是什么?应该如何存储、处理和分析如此大量的数据才能够从信息
的海洋中识别出模式和知识呢?
分析大数据需要庞大的存储和大规模的运算,这些需要大量的处理能力。随着过去十
年数字信息量开始增长,各种组织尝试用不同的方法来解决这些问题。一开始,人们将焦
点放在为单台机器增加更多的存储、处理能力和内存上——但很快发现,单台机器上的分
析技术无法扩展。随着时间的推移,很多人意识到了分布式系统的潜力(将任务分配到多台
机器上),但这样的数据分析解决方案通常复杂性高、易出错或根本不够快。
2002 年,在开发Nutch 项目(一个搜索引擎项目,专注于爬取、索引和搜索Internet 网页)的过程中,Doug Cutting 和Mike Cafarella 正在为处理海量信息努力寻求解决方案。要
实现Nutch 对存储和处理的需求,他们知道需要一个可靠的、分布式的计算方案,该方案
能够良好扩展,足够用于保存工具将要收集到的海量网站数据。
一年以后,Google 发表了关于Google 文件系统(Google File System,GFS)和MapReduce
的论文,它们是用于处理大数据集的算法和分布式编程平台。认识到Google 分布式处理以
及使用机器集群进行存储方案的前景后,Cutting 和Cafarella 将此成果作为构建Nutch 分布
式平台的基础,其结果就是我们现在所熟知的Hadoop 分布式文件系统(Hadoop Distributed
File System,HDFS)和Hadoop 的MapReduce 实现。
2006 年,在与相同的“大数据”难题——为搜索引擎所需要的海量信息建立索引——
奋战之后,且在考察了Nutch 项目进展的基础上,Yahoo!聘请了Doug Cutting,并且迅速
决定引入Hadoop 作为其解决搜索引擎挑战的分布式框架。Yahoo!将Nutch 中的存储和处
理部分抽出,形成Hadoop,作为一个开源Apache 项目,而Nutch Web 爬虫自身仍作为独
立的项目。此后不久,Yahoo!开始将Hadoop 推广成为增强各种生产应用分析能力的手段。
该平台如此高效,以致于Yahoo!将其搜索和广告合并成一个单元以更好地利用Hadoop。
在过去的 10 年中,Hadoop 以搜索引擎相关的需求为起点,演化为用于解决大数据挑
战的最通用的计算平台之一。它正在迅速成为下一代基于数据应用的基础。市场研究公司
IDC 预测,截止2016 年,Hadoop 将会驱动价值高达230 亿美元的大数据市场。随着第一
家以Hadoop 为核心的公司Cloudera 于2008 年成立,若干基于Hadoop 的创业公司已经吸
引了数亿美元的风险投资。简单来说,众多组织都发现Hadoop 为大数据分析提供了一个
行之有效的方案。

qrcode_for_gh_e0de76d13857_258

展开阅读全文
打赏
0
3 收藏
分享
加载中
更多评论
打赏
0 评论
3 收藏
0
分享
返回顶部
顶部