文档章节

HPCC 和 Hadoop 的详细区别比较

超人学院
 超人学院
发布于 2015/01/29 12:09
字数 2110
阅读 53
收藏 0
点赞 0
评论 0

硬件环境

通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果 集群节点很多,也可以使用分层交换。集群内的节点是对等的(所有资源可以简化为相同配置),但这一点并非必须。

操作系统

Linux或windows

系统配置

实现HPCC集群用两种配置:数据加工(Thor)类似于Hadoop的MapReduce集群;数据分发引擎(Roxie)提供了独立的高性能在 线查询 处理功能和数据仓库功能。两种配置都可以用做分布式文件系统,不过它们试图提高性能的实现方法不同。HPCC环境通常由两种配置类型的多个集群组成。虽然 每个集群上的文件系统相互独立,但是一个集群可以访问同一环境下位于其他集群上的文件系统内的文件。

Hadoop系统软件使用MapReduce处理范例实现了集群。这样的集群也可以用做运行HDFS的分布式文件系统。其他的功能都处Hadoop的MapReduce和Hbase,Hive等文件系统软件之上。

授权和维护费用

HPCC:社团版本是免费的。企业版授权费用目前取决于集群大小和系统配置的类型。

Hadoop:免费,不过有多个厂商提供不同的付费的维护服务。

核心软件

HPCC:如果使用了Thor配置,那么核心软件包括安装在集群每个节点上的操作系统和多种服务,它们来实现任务的执行和分布式文件系统的访问。名 字为 Dali的独立服务器提供文件系统名字服务和管理HPCC环境下任务的工作单元。Thor集群可以配置为一个主节点和多个备用节点。Roxie集群是一个 对等连接的集群,它的每个节点可运行服务器和执行查询以及密钥和文件处理的任务代理。Roxie集群的文件系统使用分布式B+树来存储索引和数据,并提供 对加密数据的访问。要对Thor和Roxie集群进行操作的话,附加的中间件组件是不可或缺的。

Hadoop:核心软件包括操作系统、Hadoop的MapReduce集群和HDFS软件。每个备用节点包括任务跟踪服务和数据节点服务。主节点 包括任 务追踪服务,任务追踪服务可配置为独立的硬件节点或者运行在一个备用硬件节点。类似地,对HDFS来说,要提供名字服务的话,主名字节点服务也是必须的, 并且可在一个备用的节点或者一个独立的节点之上运行这个服务。

中间件

HPCC:中间件包括在MySQL服务器上实现的ECL代码仓库、编译ECL程序和查询的ECL服务器、ECL代理即Thor集群上管理任务执行的 客户端 程序,ESP服务器(企业服务平台),它提供认证、日志记录、安全以及执行任务和提供Web服务环境的其他服务,Dali服务器,它可用作存储任务工作单 元信息的系统数据和为分布式文件系统提供名字服务。中间件可以灵活地运行在一个到几个节点上。多个这样的服务器可以提供冗余备份和提高性能。

Hadoop:没有中间件。客户端软件可以直接提交任务给集群主节点的任务追踪器。作为服务器运行的Hadoop工作流调度器(HWS)的管理需要多个MapReduce序列的任务的功能正在开发中。

系统工具

HPCC包括用于管理、维护和监视HPCC配置和环境的客户端和操作工具套件。这个套件包括ECL IDE、程序开发环境、属性迁移工具、分布式文件应用(DFU)、环境配置应用和Roxie配置应用。命令行版本也可用。ECLWatch是一个监控 HPCC环境的基于Web的应用程序,它包括队列管理,分布式文件系统管理、任务监视和系统性能监视工具。其他工具是通过Web服务接口提供的。

Hadoop:dfsadmin工具提供文件系统的状态信息;fsck是一个检查HDFS上文件的健康性的应用;数据节点块扫描器定时地验证数据节 点上所 有的存储块;平衡器根据需要把超负荷的数据节点上的阻塞重新发布到低负荷的数据节点上。MapReduce的WEB用户接口包括显示正在运行的和已经完成 的任务信息的任务追踪器页面;对一个具体的任务再向下点击的话就可以看到这个任务的详细信息。还有显示Map和Reduce任务信息的任务页面。

易部署 

HPCC:环境配置工具。源服务器有一个集中式仓库,它分发操作系统级别的设置、服务和二进制文件到配置中所有可网络启动的节点上。

Hadoop:需要第三方应用向导提供的在线工具协助。需要手动部署RPM。

分布式文件系统

HPCC:Thor的分布式文件系统是面向记录的,使用本地Linux文件系统存储部分文件。文件是跨节点初始化装载的(提取的),并且每个节点都 有一个 单独的部分文件,对一个分布式文件来说,这个部分文件可为空。在由用户指定的偶数个记录/文档范围内对文件进行分割。主备结构通过存储在独立服务器的名字 服务和文件映射信息来分割。每个节点只需要一个本地文件来表示一个分布式文件。同一环境下多个集群之间也支持读写访问权限设置。使用特定的适配器允许访问 来自外部数据库的比如MySQL的文件,允许事务数据与分布式文件数据合并且并入批处理的任务中。Roxie分布式文件系统使用了分布式B+树索引文件, 这样的文件包含了键值信息和存储在每个节点的本地文件里的数据。

Hadoop:面向块的,大多数安装使用大小为64MB或者128MB的块。块是以节点的本地Unix/Linux文件系统的独立单元/本地文件存 储的。 每个块的元数据信息存储为一个独立的文件。主备结构使用了单独的名字节点提供名字服务和块映射,并且使用了多个数据节点。文件划分为块并且分布地存储在集 群的各个节点。跨节点存储在一个节点上每个逻辑块的多个本地文件(一个用来保存块数据、一个用来保存元数据)来表示一个分布式文件。

容错性

HPCC:Thor和Roxie的分布式文件系统(可配置)在其他节点上保存了部分文件的副本,以防止磁盘或者节点失效。Thor系统在一个节点失 效之后 提供了要么自动要么手动的切换和热启动,任务从最近一次检查点重新启动或者继续运行。当复制数据到一个新的节点的时候,副本的制作自动进行。Roxie系 统在减少节点数而引起节点失效时继续运行。

Hadoop:HDFS(可配置)在其他节点上存储(用户指定的)多个副本,以防止由于自动恢复出现的磁盘或节点失效。MapReduce架构包括了试探性执行,当检测到一个慢的或者失败的Map任务时,其他Map任务将从失效的节点处开始恢复。

更多分享请关注:www.crxy.cn 

© 著作权归作者所有

共有 人打赏支持
超人学院
粉丝 106
博文 335
码字总数 388917
作品 0
昌平
CTO(技术副总裁)
HPCC Systems 4.2.0 正式版发布

HPCC Systems 4.2.0 正式版发布了,增加了 ECL 可视化(包含一个新的 cellFormatter包);改进 ECL 监控技术预览;包含一个 ECL 的 Eclipse 插件;一个 Roxie 监控工具,一个开源的、可伸缩的...

oschina ⋅ 2013/11/16 ⋅ 0

大规模并行处理计算平台--HPCC Systems

HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平台,用于解决大数据问题。类似 Hadoop 平台。 很显然 HPCC Systems 是 Hadoop 的直接竞争者。和 Hadoop 类似,HPCC ...

匿名 ⋅ 2011/11/05 ⋅ 3

HPCC Systems 4.0.4-1 发布,并行处理平台

HPCC Systems 4.0.4-1 包含更新和 bug 修复,包括文档方面关于 JVM 设置、Configmgr、自动化 Eclipse 帮助的更新,使用 -with-plugins 变量支持 CentOS 的构建,完善 ECL 绑定参数的文档等等...

oschina ⋅ 2013/11/10 ⋅ 0

HPCC Systems 4.2.2 发布,并行计算平台

HPCC Systems 4.2.2 发布,此版本是个维护版本,包括 bug 修复和各种更新。 HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平台,用于解决大数据问题。类似 Hadoop 平...

oschina ⋅ 2014/03/22 ⋅ 3

HPCC Systems 4.0 正式版发布,并行计算平台

HPCC Systems 4.0 正式版发布!!!该版本包括诸多新特性和改进,包括 ECL 语言的提升,可嵌入 Python、JavaScript、R语言,并调用外部 Java 代码;提供一个 Eclipse 插件;Roxie 包文件提升...

oschina ⋅ 2013/07/20 ⋅ 0

HPCC Systems 4.2.4 发布,并行计算平台

HPCC Systems 4.2.4 发布,该版本和 4.2.2 社区版几乎是相同的,主要是一些 bug 修复和补丁。详情请看发行说明。 HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平台,...

oschina ⋅ 2014/05/02 ⋅ 0

HPCC Systems 4.0 RC15 发布,并行计算平台

HPCC Systems 4.0 RC15 修复了 RC14 的一些bug,包括 handling、RULLLUP 和帮助信息方面。 HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平台,用于解决大数据问题。...

oschina ⋅ 2013/07/18 ⋅ 0

HPCC Systems 4.2.2-rc12 发布,并行计算平台

HPCC Systems 4.2.2-rc12 发布,此版本修复了内存泄漏问题;更新了 ECL Watch;添加了小的说明文档和其他 bug 修复。 HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平...

oschina ⋅ 2014/03/06 ⋅ 5

HPCC Systems 4.0.2 发布,并行计算平台

HPCC Systems 4.0.2 改进了 Bundles 的支持,对文档做了小量更新,修改包处理,ECL Watch 技术预览的可视化增强等等。 HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算...

oschina ⋅ 2013/09/20 ⋅ 0

HPCC Systems 4.2 RC2 发布,并行计算平台

HPCC Systems 4.2 RC2 发布了,该版本包含一个 ZAP 报告用于显示编译器警告和错误;包含对 Ubuntu 13.10 的更新;更新 ECL 环境;修复了内存使用问题、工作单元更新等问题。 HPCC (High Per...

oschina ⋅ 2013/11/01 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

内核线程、轻量级进程、用户线程

线程与进程概念 在现代操作系统中,进程支持多线程。 进程是资源管理的最小单元; 线程是程序执行的最小单元。 即线程作为调度和分配的基本单位,进程作为资源分配的基本单位 一个进程的组成...

117 ⋅ 27分钟前 ⋅ 0

elasticsearch2.4.6升级为elasticsearch-5.5.0的经历

将elasticsearch-5.5.0 中的配置 path.data 指向原来的数据路径 即 path.data: /usr/local/src/elasticsearch-2.4.6/data 注意: elasticsearch-5.5.0 需要将jdk版本升级到1.8...

晨猫 ⋅ 27分钟前 ⋅ 1

lvm讲解 磁盘故障小案例

1

oschina130111 ⋅ 32分钟前 ⋅ 0

那些提升开发人员工作效率的在线工具

本文转载自公众号 Hollis 作为一个Java开发人员,经常要和各种各样的工具打交道,除了我们常用的IDE工具以外,其实还有很多工具是我们在日常开发及学习过程中要经常使用到的。 Hollis偏爱使用...

时刻在奔跑 ⋅ 44分钟前 ⋅ 0

restful风格 实现DELETE PUT请求 的web.xml的配置

import org.springframework.beans.factory.annotation.Autowired; import org.springframework.http.HttpStatus; import org.springframework.http.ResponseEntity; import org.springframe......

泉天下 ⋅ 49分钟前 ⋅ 0

Shell数组

Shell数组 Shell在编程方面比Windows批处理强大很多,无论是在循环、运算。 bash支持一维数组(不支持多维数组),并且没有限定数组的大小。类似与C语言,数组元素的下标由0开始编号。获取数...

蜗牛奔跑 ⋅ 59分钟前 ⋅ 0

nmap为了开发方便 可以做简单的修改

因为nmap扫描是默认使用的是nse脚本,但是在开发的过程中需要修改后缀(主要是因为后缀为lua才能显示高亮,所以这里用一个取巧的办法) nse_main.lua文件中我们找到如下代码 local t, path = cn...

超级大黑猫 ⋅ 今天 ⋅ 0

springmvc获取axios数据为null情况

场景:前端用了vue没有用ajax与后台通信,用了axios,但是在代码运行过程中发现axios传递到后台的值接受到数据为null。 问题原因:此处的问题在与axios返回给后台的数据为json类型的,后台接...

王子城 ⋅ 今天 ⋅ 0

hadoop技术入门学习之发行版选择

经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易。看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个...

左手的倒影 ⋅ 今天 ⋅ 0

806. Number of Lines To Write String - LeetCode

Question 806. Number of Lines To Write String Solution 思路:注意一点,如果a长度为4,当前行已经用了98个单元,要另起一行。 Java实现: public int[] numberOfLines(int[] widths, Str...

yysue ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部