文档章节

关于对异构计算(Big Data、HPC)整合的一些思路

c
 code_son
发布于 2017/07/26 08:07
字数 1035
阅读 134
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

 

随着互联网的高速发展,基于数据计算密集型应用的框架不断涌现,BigData:从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4等,HPC:从使用单机胖节点处理数据,到openMPI(MPI)联机并行处理,到HPC框架SGE、PBS、SLURM等,GPU计算:从GPU的CUDA编程,到深度学习框架Caffe、TensorFlow等,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类问题。在提供数据分析、计算类软件企业中,或者大部分互联网公司,或者某些特殊行业(如:金融、银行、科研等等),一般常用的系统(框架、软件)有:Hadoop、Spark、Storm、SGE、PBS、SLURM等,随着业务场景不断变化,框架越来越多,大多数公司、企业、团体希望把日常用到框架部署到公共的集群中,让所有框架共享集群内的资源,这样,我们萌生了整理一套简单易用的统一管理、调度平台的想法。

以下针对资源统一管理与调度平台产生背景以及它们所应具有的特点进行阐述。

 

 

多种计算框架支持:

管理平台内部资源对外提供全局统一的资源管理器。所有接入平台的框架在全局资源管理器中进行资源申请。调度工作交于框架自身控制。也就是:资源统一管理、计算控制权下放。各框架在统一的平台内控制资源(内存、CPU、硬盘、网络等)会出现相互干扰,所以,需要资源隔离机制、和常规框架资源调度方案,来避免资源类似问题。

扩展性:

平台化概念就是避免各类单点、性能、设备扩展性等问题。

容错行:

与扩展类似,容错性也是平台设计的重要方向,数据传输、分析处理、计算等一定要求平台有良好的容错性。

Cluster of Clan (大集群)

如果在使用环境中每个计算框架单独搭建一套集群,往往利用率不是很高,混合设计会让集群利用率大幅度提升。但是,也要根据具体应用场景来分析,如果计算密集型、并且周期较长,用得尽计算框架内的资源,这样建议使用静态资源分配的方式。根据经验:一般小的集群使用者,他的集群尽可能多的安装各种软件,这样对他们来说是最好的,原因有几种,资源紧张,使用者混搭较严重,一般各个用户用到的应用、计算框架等能装的都会装在上面的。还有一类就是专业研究某一领域的用户,他们会搭建专业的集群来使用。如:HPC集群、GPU的集群、Spark的集群。

 

 

 

 

打通各个环节:

底层基础设施运维:(除去网络、布线、机柜等等)远程开关机、远程安装操作系统、各类监控服务、各类告警服务、底层语言及SDK、特定的软件包等

存储层:RDBMS、NoSQL、NewSQL、文件存储等统一安装、维护、api化、集群化

计算层:各类计算框架,如Hadoop、Spqrk、SGE、Pbs 等

应用层:场景化应用安装维护,如脑影像相关软件FreeSuffer、SPM、VTK、ITK等

统一用户:统一用户信息,实现异构系统用户打通

非正常关闭系统、人为误操作、软件冲突等都会造成运维上的负担及用户使用体验度下降。所以在处理集群上的事物要仔细谨慎。

 

在后续章节陆续会介绍一些空手夺白刃的招式 :)

如何搭建一套企业级HPC平台,包括:统一用户、统一存储等核心功能。

邮件:code_son@163.com

© 著作权归作者所有

c

code_son

粉丝 2
博文 7
码字总数 2316
作品 3
长宁
私信 提问
加载中

评论(0)

微软HPC群集添加Linux计算节点

HPC群集系统中计算资源的管理是重要的一块,如果能够实现计算作业可以在异构操作系统上面协同运作,无疑将是一大亮点,微软HPC pack自2012 upate3开始,支持本地linux作为计算节点,微软官网...

老收藏家
2018/04/28
0
0
全球云计算周要闻红黑榜:多位高管相继易主

  【IT168 周云计算要闻】如今,人工智能、大数据、云计算等概念涌入人们的视野,放眼四周,这些概念也正在切实地影响着我们的生活。上周,全球云计算市场围绕着人工智能、云计算为热点又掀...

it168网站
2017/09/19
0
0
HPC高性能计算知识: 异构并行计算

当摩尔定律还是行业的铁律时,计算机编程几乎一直都是串行的,绝大多数的程序只存在一个进程或线程。大家还过着“我写个程序,性能达不到就睡个觉,等硬件工艺刷新硬件性能,性能就达标了”的...

btb5e6nsu1g511eg5xeg
2018/04/23
0
0
阿里云异构计算团队亮相英伟达2018 GTC大会

1、首届云原生计算国际会议上,弹性计算研究员伯瑜介绍了基于虚拟化、容器化编排技术的云计算操作系统PouchContainer 首届云原生计算国际会议(KubeCon + CloudNativeCon,China,2018)在上...

迷你芊宝宝
2018/12/04
20
0
量子计算的下一步,该考虑软件基础设施了!

  【IT168 评论】在过去十年中,在开发实际的QPU硬件方面取得了巨大进步,IBM发布了一个具有用于用户访问的16位量子位QPU门户。Rigetti公司正在开发8-量子位QPU方面取得了相当的进展。D-W...

it168网站
2017/09/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

认知智能类脑模型之理解技术体系简介道翰天琼

理解层在类脑模型认知层的下层,在学习层的上层。学习和理解本身也 是一体。学习本身包含了理解。这里的理解主要是机器学习之后的深度理解。理解层的核心包含三大部分符号,语言和图像的深度...

jackli2020
21分钟前
17
0
org.json的使用详解

jar下载 基于maven工程的pom文件配置: <!-- https://mvnrepository.com/artifact/org.json/json --><dependency><groupId>org.json</groupId><artifactId>json</artifactId>......

独钓渔
22分钟前
19
0
webpack.04-entry points

https://www.webpackjs.com/concepts/entry-points/ cnpm init -y cnpm i -D webpack webpack-cli 配置文件webpack.config.js module.exports={ mode:'development',//production 生产环......

_qq507570355
30分钟前
16
0
Oracle中如何实现分页+排序? 其中遇到的问题,你,注意了嘛???

分页 + 排序 一.简单分页: 需求:分页查询台账表T_ACCOUNT,每页10条记录 分析:我们在ORACLE进行分页查询,需要用到伪列ROWNUM和嵌套查询 我们首先显示前10条记录,语句如下: select rownu...

煌sir
57分钟前
148
0
使用JavaScript获取当前URL? - Get the current URL with JavaScript?

问题: All I want is to get the website URL. 我想要的只是获取网站URL。 Not the URL as taken from a link. 不是从链接获取的URL。 On the page loading I need to be able to grab the ......

技术盛宴
今天
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部