文档章节

关于对异构计算(Big Data、HPC)整合的一些思路

c
 code_son
发布于 2017/07/26 08:07
字数 1035
阅读 19
收藏 0

 

随着互联网的高速发展,基于数据计算密集型应用的框架不断涌现,BigData:从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4等,HPC:从使用单机胖节点处理数据,到openMPI(MPI)联机并行处理,到HPC框架SGE、PBS、SLURM等,GPU计算:从GPU的CUDA编程,到深度学习框架Caffe、TensorFlow等,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类问题。在提供数据分析、计算类软件企业中,或者大部分互联网公司,或者某些特殊行业(如:金融、银行、科研等等),一般常用的系统(框架、软件)有:Hadoop、Spark、Storm、SGE、PBS、SLURM等,随着业务场景不断变化,框架越来越多,大多数公司、企业、团体希望把日常用到框架部署到公共的集群中,让所有框架共享集群内的资源,这样,我们萌生了整理一套简单易用的统一管理、调度平台的想法。

以下针对资源统一管理与调度平台产生背景以及它们所应具有的特点进行阐述。

 

 

多种计算框架支持:

管理平台内部资源对外提供全局统一的资源管理器。所有接入平台的框架在全局资源管理器中进行资源申请。调度工作交于框架自身控制。也就是:资源统一管理、计算控制权下放。各框架在统一的平台内控制资源(内存、CPU、硬盘、网络等)会出现相互干扰,所以,需要资源隔离机制、和常规框架资源调度方案,来避免资源类似问题。

扩展性:

平台化概念就是避免各类单点、性能、设备扩展性等问题。

容错行:

与扩展类似,容错性也是平台设计的重要方向,数据传输、分析处理、计算等一定要求平台有良好的容错性。

Cluster of Clan (大集群)

如果在使用环境中每个计算框架单独搭建一套集群,往往利用率不是很高,混合设计会让集群利用率大幅度提升。但是,也要根据具体应用场景来分析,如果计算密集型、并且周期较长,用得尽计算框架内的资源,这样建议使用静态资源分配的方式。根据经验:一般小的集群使用者,他的集群尽可能多的安装各种软件,这样对他们来说是最好的,原因有几种,资源紧张,使用者混搭较严重,一般各个用户用到的应用、计算框架等能装的都会装在上面的。还有一类就是专业研究某一领域的用户,他们会搭建专业的集群来使用。如:HPC集群、GPU的集群、Spark的集群。

 

 

 

 

打通各个环节:

底层基础设施运维:(除去网络、布线、机柜等等)远程开关机、远程安装操作系统、各类监控服务、各类告警服务、底层语言及SDK、特定的软件包等

存储层:RDBMS、NoSQL、NewSQL、文件存储等统一安装、维护、api化、集群化

计算层:各类计算框架,如Hadoop、Spqrk、SGE、Pbs 等

应用层:场景化应用安装维护,如脑影像相关软件FreeSuffer、SPM、VTK、ITK等

统一用户:统一用户信息,实现异构系统用户打通

非正常关闭系统、人为误操作、软件冲突等都会造成运维上的负担及用户使用体验度下降。所以在处理集群上的事物要仔细谨慎。

 

在后续章节陆续会介绍一些空手夺白刃的招式 :)

如何搭建一套企业级HPC平台,包括:统一用户、统一存储等核心功能。

邮件:code_son@163.com

© 著作权归作者所有

共有 人打赏支持
c
粉丝 2
博文 6
码字总数 2215
作品 3
长宁
私信 提问
微软HPC群集添加Linux计算节点

HPC群集系统中计算资源的管理是重要的一块,如果能够实现计算作业可以在异构操作系统上面协同运作,无疑将是一大亮点,微软HPC pack自2012 upate3开始,支持本地linux作为计算节点,微软官网...

老收藏家
04/28
0
0
HPC高性能计算知识: 异构并行计算

当摩尔定律还是行业的铁律时,计算机编程几乎一直都是串行的,绝大多数的程序只存在一个进程或线程。大家还过着“我写个程序,性能达不到就睡个觉,等硬件工艺刷新硬件性能,性能就达标了”的...

btb5e6nsu1g511eg5xeg
04/23
0
0
全球云计算周要闻红黑榜:多位高管相继易主

  【IT168 周云计算要闻】如今,人工智能、大数据、云计算等概念涌入人们的视野,放眼四周,这些概念也正在切实地影响着我们的生活。上周,全球云计算市场围绕着人工智能、云计算为热点又掀...

it168网站
2017/09/19
0
0
阿里云异构计算团队亮相英伟达2018 GTC大会

1、首届云原生计算国际会议上,弹性计算研究员伯瑜介绍了基于虚拟化、容器化编排技术的云计算操作系统PouchContainer 首届云原生计算国际会议(KubeCon + CloudNativeCon,China,2018)在上...

迷你芊宝宝
12/04
0
0
多位专家畅谈中国高性能计算现状与发展

  【IT168 评论】随着新一代超级计算机天河二号的发布,中国再一次获得了TOP500超级计算机排行榜的冠军,也标志着中国高性能计算行业进入到了新的时代。那么对于中国高性能计算与超级计算机...

it168网站
2013/11/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

sql 开窗函数

开窗函数:在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在 2003 年 ISO SQL 标准加入了开窗函数,开窗函数...

hblt-j
9分钟前
0
0
使用Vue动态生成form表单的实例代码

具有数据收集、校验和提交功能的表单生成器,包含复选框、单选框、输入框、下拉选择框等元素以及,省市区三级联动,时间选择,日期选择,颜色选择,文件/图片上传功能,支持事件扩展。 欢迎大家s...

嫣然丫丫丫
16分钟前
0
0
NEO区块链-DAPP开发直通车-第零篇

什么是DAPP DAPP 是以太坊发明的词汇 Decentralized Application. 目前基于区块链技术开发的应用程序广泛的接受使用了这一名称。 NEL将为开发DAPP提供全面的服务 什么是NEL NEL是 “NewEcon...

NEO-FANS
20分钟前
1
0
可视化软件VisIt在Ubuntu18.04上的安装

可视化软件VisIt在Ubuntu18.04上的安装 参考文档及使用说明 1.下载 在官网下载页面下载合适版本的安装文件,Ubuntu有专用的 https://wci.llnl.gov/simulation/computer-codes/visit/executa...

佚文
26分钟前
1
0
selenium之表格的定位

真的勇士, 敢于直面惨淡的warning、 敢于正视淋漓的error 目录 被测试网页的HTML代码 1.遍历表格所有单元格 2.定位表格中的某个元素 3.定位表格中的子元素 总结 浏览器网页常常会包含各类表...

程序猿拿Q
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部