文档章节

关于对异构计算(Big Data、HPC)整合的一些思路

c
 code_son
发布于 2017/07/26 08:07
字数 1035
阅读 7
收藏 0

 

随着互联网的高速发展,基于数据计算密集型应用的框架不断涌现,BigData:从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4等,HPC:从使用单机胖节点处理数据,到openMPI(MPI)联机并行处理,到HPC框架SGE、PBS、SLURM等,GPU计算:从GPU的CUDA编程,到深度学习框架Caffe、TensorFlow等,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类问题。在提供数据分析、计算类软件企业中,或者大部分互联网公司,或者某些特殊行业(如:金融、银行、科研等等),一般常用的系统(框架、软件)有:Hadoop、Spark、Storm、SGE、PBS、SLURM等,随着业务场景不断变化,框架越来越多,大多数公司、企业、团体希望把日常用到框架部署到公共的集群中,让所有框架共享集群内的资源,这样,我们萌生了整理一套简单易用的统一管理、调度平台的想法。

以下针对资源统一管理与调度平台产生背景以及它们所应具有的特点进行阐述。

 

 

多种计算框架支持:

管理平台内部资源对外提供全局统一的资源管理器。所有接入平台的框架在全局资源管理器中进行资源申请。调度工作交于框架自身控制。也就是:资源统一管理、计算控制权下放。各框架在统一的平台内控制资源(内存、CPU、硬盘、网络等)会出现相互干扰,所以,需要资源隔离机制、和常规框架资源调度方案,来避免资源类似问题。

扩展性:

平台化概念就是避免各类单点、性能、设备扩展性等问题。

容错行:

与扩展类似,容错性也是平台设计的重要方向,数据传输、分析处理、计算等一定要求平台有良好的容错性。

Cluster of Clan (大集群)

如果在使用环境中每个计算框架单独搭建一套集群,往往利用率不是很高,混合设计会让集群利用率大幅度提升。但是,也要根据具体应用场景来分析,如果计算密集型、并且周期较长,用得尽计算框架内的资源,这样建议使用静态资源分配的方式。根据经验:一般小的集群使用者,他的集群尽可能多的安装各种软件,这样对他们来说是最好的,原因有几种,资源紧张,使用者混搭较严重,一般各个用户用到的应用、计算框架等能装的都会装在上面的。还有一类就是专业研究某一领域的用户,他们会搭建专业的集群来使用。如:HPC集群、GPU的集群、Spark的集群。

 

 

 

 

打通各个环节:

底层基础设施运维:(除去网络、布线、机柜等等)远程开关机、远程安装操作系统、各类监控服务、各类告警服务、底层语言及SDK、特定的软件包等

存储层:RDBMS、NoSQL、NewSQL、文件存储等统一安装、维护、api化、集群化

计算层:各类计算框架,如Hadoop、Spqrk、SGE、Pbs 等

应用层:场景化应用安装维护,如脑影像相关软件FreeSuffer、SPM、VTK、ITK等

统一用户:统一用户信息,实现异构系统用户打通

非正常关闭系统、人为误操作、软件冲突等都会造成运维上的负担及用户使用体验度下降。所以在处理集群上的事物要仔细谨慎。

 

在后续章节陆续会介绍一些空手夺白刃的招式 :)

如何搭建一套企业级HPC平台,包括:统一用户、统一存储等核心功能。

邮件:code_son@163.com

© 著作权归作者所有

共有 人打赏支持
c
粉丝 2
博文 6
码字总数 2215
作品 3
长宁
微软HPC群集添加Linux计算节点

HPC群集系统中计算资源的管理是重要的一块,如果能够实现计算作业可以在异构操作系统上面协同运作,无疑将是一大亮点,微软HPC pack自2012 upate3开始,支持本地linux作为计算节点,微软官网...

老收藏家
04/28
0
0
HPC高性能计算知识: 异构并行计算

当摩尔定律还是行业的铁律时,计算机编程几乎一直都是串行的,绝大多数的程序只存在一个进程或线程。大家还过着“我写个程序,性能达不到就睡个觉,等硬件工艺刷新硬件性能,性能就达标了”的...

btb5e6nsu1g511eg5xeg
04/23
0
0
全球云计算周要闻红黑榜:多位高管相继易主

  【IT168 周云计算要闻】如今,人工智能、大数据、云计算等概念涌入人们的视野,放眼四周,这些概念也正在切实地影响着我们的生活。上周,全球云计算市场围绕着人工智能、云计算为热点又掀...

it168网站
2017/09/19
0
0
Hadoop集群部署模型纵览3

在前两篇文章中,我们介绍了Hadoop集群部署的3个方式,即《存储/计算绑定和单一计算的Hadoop集群》,《存储/计算分离的Hadoop集群部署》。本文我们着重讲解最后一种方式,即构建自定义的Had...

vBigData
2013/10/22
0
0
量子计算的下一步,该考虑软件基础设施了!

  【IT168 评论】在过去十年中,在开发实际的QPU硬件方面取得了巨大进步,IBM发布了一个具有用于用户访问的16位量子位QPU门户。Rigetti公司正在开发8-量子位QPU方面取得了相当的进展。D-W...

it168网站
2017/09/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

OSChina 周日乱弹 —— 种族不同,禁止交往

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @小小编辑:推荐歌曲《苏菲小姐》- 鱼果 《苏菲小姐》- 鱼果 手机党少年们想听歌,请使劲儿戳(这里) @貓夏:下大雨 正是睡觉的好时候 临睡前...

小小编辑
32分钟前
32
5
Python 搭建简单服务器

Python动态服务器网页(需要使用WSGI接口),基本实现步骤如下: 1.等待客户端的链接,服务器会收到一个http协议的请求数据报 2.利用正则表达式对这个请求数据报进行解析(请求方式、提取出文...

代码打碟手
35分钟前
0
0
Confluence 6 删除垃圾内容

属性(profile)垃圾 属性垃圾的定义为,一个垃圾用户在 Confluence 创建了用户,但是这个用户在自己的属性页面中添加了垃圾 URL。 如果你有很多垃圾用户在你的系统中创建了属性,你可以使用...

honeymose
今天
0
0
qduoj~前端~二次开发~打包docker镜像并上传到阿里云容器镜像仓库

上一篇文章https://my.oschina.net/finchxu/blog/1930017记录了怎么在本地修改前端,现在我要把我的修改添加到部署到本地的前端的docker容器中,然后打包这个容器成为一个本地镜像,然后把这...

虚拟世界的懒猫
今天
1
0
UML中 的各种符号含义

Class Notation A class notation consists of three parts: Class Name The name of the class appears in the first partition. Class Attributes Attributes are shown in the second par......

hutaishi
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部