文档章节

关于对异构计算(Big Data、HPC)整合的一些思路

c
 code_son
发布于 2017/07/26 08:07
字数 1035
阅读 15
收藏 0

 

随着互联网的高速发展,基于数据计算密集型应用的框架不断涌现,BigData:从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4等,HPC:从使用单机胖节点处理数据,到openMPI(MPI)联机并行处理,到HPC框架SGE、PBS、SLURM等,GPU计算:从GPU的CUDA编程,到深度学习框架Caffe、TensorFlow等,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类问题。在提供数据分析、计算类软件企业中,或者大部分互联网公司,或者某些特殊行业(如:金融、银行、科研等等),一般常用的系统(框架、软件)有:Hadoop、Spark、Storm、SGE、PBS、SLURM等,随着业务场景不断变化,框架越来越多,大多数公司、企业、团体希望把日常用到框架部署到公共的集群中,让所有框架共享集群内的资源,这样,我们萌生了整理一套简单易用的统一管理、调度平台的想法。

以下针对资源统一管理与调度平台产生背景以及它们所应具有的特点进行阐述。

 

 

多种计算框架支持:

管理平台内部资源对外提供全局统一的资源管理器。所有接入平台的框架在全局资源管理器中进行资源申请。调度工作交于框架自身控制。也就是:资源统一管理、计算控制权下放。各框架在统一的平台内控制资源(内存、CPU、硬盘、网络等)会出现相互干扰,所以,需要资源隔离机制、和常规框架资源调度方案,来避免资源类似问题。

扩展性:

平台化概念就是避免各类单点、性能、设备扩展性等问题。

容错行:

与扩展类似,容错性也是平台设计的重要方向,数据传输、分析处理、计算等一定要求平台有良好的容错性。

Cluster of Clan (大集群)

如果在使用环境中每个计算框架单独搭建一套集群,往往利用率不是很高,混合设计会让集群利用率大幅度提升。但是,也要根据具体应用场景来分析,如果计算密集型、并且周期较长,用得尽计算框架内的资源,这样建议使用静态资源分配的方式。根据经验:一般小的集群使用者,他的集群尽可能多的安装各种软件,这样对他们来说是最好的,原因有几种,资源紧张,使用者混搭较严重,一般各个用户用到的应用、计算框架等能装的都会装在上面的。还有一类就是专业研究某一领域的用户,他们会搭建专业的集群来使用。如:HPC集群、GPU的集群、Spark的集群。

 

 

 

 

打通各个环节:

底层基础设施运维:(除去网络、布线、机柜等等)远程开关机、远程安装操作系统、各类监控服务、各类告警服务、底层语言及SDK、特定的软件包等

存储层:RDBMS、NoSQL、NewSQL、文件存储等统一安装、维护、api化、集群化

计算层:各类计算框架,如Hadoop、Spqrk、SGE、Pbs 等

应用层:场景化应用安装维护,如脑影像相关软件FreeSuffer、SPM、VTK、ITK等

统一用户:统一用户信息,实现异构系统用户打通

非正常关闭系统、人为误操作、软件冲突等都会造成运维上的负担及用户使用体验度下降。所以在处理集群上的事物要仔细谨慎。

 

在后续章节陆续会介绍一些空手夺白刃的招式 :)

如何搭建一套企业级HPC平台,包括:统一用户、统一存储等核心功能。

邮件:code_son@163.com

© 著作权归作者所有

共有 人打赏支持
c
粉丝 2
博文 6
码字总数 2215
作品 3
长宁
微软HPC群集添加Linux计算节点

HPC群集系统中计算资源的管理是重要的一块,如果能够实现计算作业可以在异构操作系统上面协同运作,无疑将是一大亮点,微软HPC pack自2012 upate3开始,支持本地linux作为计算节点,微软官网...

老收藏家
04/28
0
0
HPC高性能计算知识: 异构并行计算

当摩尔定律还是行业的铁律时,计算机编程几乎一直都是串行的,绝大多数的程序只存在一个进程或线程。大家还过着“我写个程序,性能达不到就睡个觉,等硬件工艺刷新硬件性能,性能就达标了”的...

btb5e6nsu1g511eg5xeg
04/23
0
0
全球云计算周要闻红黑榜:多位高管相继易主

  【IT168 周云计算要闻】如今,人工智能、大数据、云计算等概念涌入人们的视野,放眼四周,这些概念也正在切实地影响着我们的生活。上周,全球云计算市场围绕着人工智能、云计算为热点又掀...

it168网站
2017/09/19
0
0
Hadoop集群部署模型纵览3

在前两篇文章中,我们介绍了Hadoop集群部署的3个方式,即《存储/计算绑定和单一计算的Hadoop集群》,《存储/计算分离的Hadoop集群部署》。本文我们着重讲解最后一种方式,即构建自定义的Had...

vBigData
2013/10/22
0
0
多位专家畅谈中国高性能计算现状与发展

  【IT168 评论】随着新一代超级计算机天河二号的发布,中国再一次获得了TOP500超级计算机排行榜的冠军,也标志着中国高性能计算行业进入到了新的时代。那么对于中国高性能计算与超级计算机...

it168网站
2013/11/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

防止快速重复点击的两种思维

防止重复执行的两种思维 场景 下单时,提交按钮,因为网络卡顿或者手快重复点击,导致重复提交订单; 微博,更新个人状态或发表评论时,快速多次点击[发送]按钮,导致相同的信息发送多次. 解决思路 ...

黄威
32分钟前
0
0
在windows环境下使用Virtualbox虚拟Debian系统来运行Docker

标题绕口。 我之前一直使用 Virtualbox 和 homestead 来运行我的 PHP 开发环境。最近决心开始尝试 DevOps,使得开发、部署容器化,来化解人为操作失误和环境不兼容等问题造成的各种损失。就打...

zgldh
34分钟前
0
0
python map()

map()函数 map()是 Python 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并返回。(利用生成器的原理,并不马上返回值,...

南桥北木
48分钟前
0
0
分享几个 SpringBoot 实用的小技巧

前言 最近分享的一些源码、框架设计的东西。我发现大家热情不是特别高,想想大多数应该还是正儿八经写代码的居多;这次就分享一点接地气的: SpringBoot 使用中的一些小技巧。 算不上多高大上...

Java干货分享
48分钟前
2
0
day123-20181021-英语流利阅读-待学习

这款新字体,比记忆面包还管用 Lala 2018-10-21 1.今日导读 字体能跟学习效果有什么关系?你还别说,来自澳洲的心理学家和设计师们,还真创造了一款号称能够帮助大家记忆信息、增强学习效果的...

飞鱼说编程
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部