文档章节

关于对异构计算(Big Data、HPC)整合的一些思路

c
 code_son
发布于 2017/07/26 08:07
字数 1035
阅读 5
收藏 0
点赞 0
评论 0

 

随着互联网的高速发展,基于数据计算密集型应用的框架不断涌现,BigData:从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4等,HPC:从使用单机胖节点处理数据,到openMPI(MPI)联机并行处理,到HPC框架SGE、PBS、SLURM等,GPU计算:从GPU的CUDA编程,到深度学习框架Caffe、TensorFlow等,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类问题。在提供数据分析、计算类软件企业中,或者大部分互联网公司,或者某些特殊行业(如:金融、银行、科研等等),一般常用的系统(框架、软件)有:Hadoop、Spark、Storm、SGE、PBS、SLURM等,随着业务场景不断变化,框架越来越多,大多数公司、企业、团体希望把日常用到框架部署到公共的集群中,让所有框架共享集群内的资源,这样,我们萌生了整理一套简单易用的统一管理、调度平台的想法。

以下针对资源统一管理与调度平台产生背景以及它们所应具有的特点进行阐述。

 

 

多种计算框架支持:

管理平台内部资源对外提供全局统一的资源管理器。所有接入平台的框架在全局资源管理器中进行资源申请。调度工作交于框架自身控制。也就是:资源统一管理、计算控制权下放。各框架在统一的平台内控制资源(内存、CPU、硬盘、网络等)会出现相互干扰,所以,需要资源隔离机制、和常规框架资源调度方案,来避免资源类似问题。

扩展性:

平台化概念就是避免各类单点、性能、设备扩展性等问题。

容错行:

与扩展类似,容错性也是平台设计的重要方向,数据传输、分析处理、计算等一定要求平台有良好的容错性。

Cluster of Clan (大集群)

如果在使用环境中每个计算框架单独搭建一套集群,往往利用率不是很高,混合设计会让集群利用率大幅度提升。但是,也要根据具体应用场景来分析,如果计算密集型、并且周期较长,用得尽计算框架内的资源,这样建议使用静态资源分配的方式。根据经验:一般小的集群使用者,他的集群尽可能多的安装各种软件,这样对他们来说是最好的,原因有几种,资源紧张,使用者混搭较严重,一般各个用户用到的应用、计算框架等能装的都会装在上面的。还有一类就是专业研究某一领域的用户,他们会搭建专业的集群来使用。如:HPC集群、GPU的集群、Spark的集群。

 

 

 

 

打通各个环节:

底层基础设施运维:(除去网络、布线、机柜等等)远程开关机、远程安装操作系统、各类监控服务、各类告警服务、底层语言及SDK、特定的软件包等

存储层:RDBMS、NoSQL、NewSQL、文件存储等统一安装、维护、api化、集群化

计算层:各类计算框架,如Hadoop、Spqrk、SGE、Pbs 等

应用层:场景化应用安装维护,如脑影像相关软件FreeSuffer、SPM、VTK、ITK等

统一用户:统一用户信息,实现异构系统用户打通

非正常关闭系统、人为误操作、软件冲突等都会造成运维上的负担及用户使用体验度下降。所以在处理集群上的事物要仔细谨慎。

 

在后续章节陆续会介绍一些空手夺白刃的招式 :)

如何搭建一套企业级HPC平台,包括:统一用户、统一存储等核心功能。

邮件:code_son@163.com

© 著作权归作者所有

共有 人打赏支持
c
粉丝 2
博文 6
码字总数 2215
作品 3
天津
微软HPC群集添加Linux计算节点

HPC群集系统中计算资源的管理是重要的一块,如果能够实现计算作业可以在异构操作系统上面协同运作,无疑将是一大亮点,微软HPC pack自2012 upate3开始,支持本地linux作为计算节点,微软官网...

老收藏家 ⋅ 04/28 ⋅ 0

HPC高性能计算知识: 异构并行计算

当摩尔定律还是行业的铁律时,计算机编程几乎一直都是串行的,绝大多数的程序只存在一个进程或线程。大家还过着“我写个程序,性能达不到就睡个觉,等硬件工艺刷新硬件性能,性能就达标了”的...

btb5e6nsu1g511eg5xeg ⋅ 04/23 ⋅ 0

全球云计算周要闻红黑榜:多位高管相继易主

  【IT168 周云计算要闻】如今,人工智能、大数据、云计算等概念涌入人们的视野,放眼四周,这些概念也正在切实地影响着我们的生活。上周,全球云计算市场围绕着人工智能、云计算为热点又掀...

it168网站 ⋅ 2017/09/19 ⋅ 0

Hadoop集群部署模型纵览3

在前两篇文章中,我们介绍了Hadoop集群部署的3个方式,即《存储/计算绑定和单一计算的Hadoop集群》,《存储/计算分离的Hadoop集群部署》。本文我们着重讲解最后一种方式,即构建自定义的Had...

vBigData ⋅ 2013/10/22 ⋅ 0

量子计算的下一步,该考虑软件基础设施了!

  【IT168 评论】在过去十年中,在开发实际的QPU硬件方面取得了巨大进步,IBM发布了一个具有用于用户访问的16位量子位QPU门户。Rigetti公司正在开发8-量子位QPU方面取得了相当的进展。D-W...

it168网站 ⋅ 2017/09/22 ⋅ 0

多位专家畅谈中国高性能计算现状与发展

  【IT168 评论】随着新一代超级计算机天河二号的发布,中国再一次获得了TOP500超级计算机排行榜的冠军,也标志着中国高性能计算行业进入到了新的时代。那么对于中国高性能计算与超级计算机...

it168网站 ⋅ 2013/11/13 ⋅ 0

科技巨头:要么转向专用计算,要么灭亡

【IT经理网点评】2013年传统IT巨头遭遇了硬件销售的滑铁卢,无论是Oracle、IBM、惠普还是英特尔都面临方向性的战略抉择,全新的移动计算、云计算和物联网计算市场正在颠覆过去的“组件化”、...

CashCat ⋅ 2013/08/14 ⋅ 0

会议 | 2017VLDB 参会总结&论文鉴赏

前言 2017年8月28日到9月1日,VLDB 2017在慕尼黑工业大学举行,作为数据库领域的三大顶级会议之一,吸引了领域内大量专家、学者以及产业界人士参加。阿里巴巴集团是本次大会的黄金赞助商之一...

安和林 ⋅ 01/04 ⋅ 0

阿里云E-HPC联合安世亚太、联科集团共建云超算生态

摘要: 进入“中国制造2025”新时代的节奏又加快了速度!阿里云是国内最大的云计算厂商,去年9月阿里云推出了首个公共云上的超算平台,可一键部署获得媲美大型超算集群环境的云上超算中心,在...

阿里云云栖社区 ⋅ 05/28 ⋅ 0

用 Big Data 挖掘新的业务洞察

市场动力 最近几年中,web 和企业已经见证了数据膨胀。这一现象有很多种原因,例如,便宜的 terabyte 量级的存储硬件的商品化,随着时间的推移已接近临界规模的企业数据,以及允许轻松进行信...

红薯 ⋅ 2010/07/28 ⋅ 2

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Netweaver和SAP云平台的quota管理

Netweaver 以需要为一个用户上下文(User Context)能够在SAP extended memory区域中分配内存尺寸创建quota为例。 对于Dialog工作进程,使用事务码修改参数 ztta/roll_extension_dia. 对于非D...

JerryWang_SAP ⋅ 8分钟前 ⋅ 0

IDEA提示编码速度

焦点移动 将焦点冲代码编辑窗口移动到菜单栏:Alt+菜单栏带下划线字母 将焦点从工具窗口移动到代码编辑窗口 Esc或Shift+Esc 将焦点从代码编辑移动到最近使用的工具窗口 F12 模板提示 Ctrl+J...

bithup ⋅ 17分钟前 ⋅ 0

180623-SpringBoot之logback配置文件

SpringBoot配置logback 项目的日志配置属于比较常见的case了,之前接触和使用的都是Spring结合xml的方式,引入几个依赖,然后写个 logback.xml 配置文件即可,那么在SpringBoot中可以怎么做?...

小灰灰Blog ⋅ 41分钟前 ⋅ 0

冒泡排序

原理:比较两个相邻的元素,将值大的元素交换至右端。 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面。即在第一趟:首先比较第1个和第2个数,将小数放前,大数放后。然后比较第...

人觉非常君 ⋅ 48分钟前 ⋅ 0

Vagrant setup

安装软件 brew cask install virtualboxbrew cask install vagrant 创建project mkdir -p mst/vmcd mst/vmvagrant init hashicorp/precise64vagrant up hashicorp/precise64是一个box......

遥借东风 ⋅ 今天 ⋅ 0

python3.6 安装pyhook_3

我的是在win下的,忙了半天老是安装不了, pip install 也不行。 那么可以看出自己的版本是32bit 一脸懵逼 没办法 只好下载32版本的来安装 我一直以为 是 对应32 位的 。 下面是 小例子 http...

之渊 ⋅ 今天 ⋅ 0

004、location正则表达式

1、location的作用 location指令的作用是根据用户请求的URI来执行不同的应用,也就是根据用户请求的网站URL进行匹配,匹配成功即进行相关的操作。 2、location的语法 = 开头表示精确匹配 ^~...

北岩 ⋅ 今天 ⋅ 0

CentOS7 静默安装 Oracle 12c

环境 CentOS7.5 最小安装 数据库软件 linuxx64_12201_database.zip 操作系统配置 关闭 SELinux sed -i '/^SELINUX=/cSELINUX=disabled' /etc/selinux/config 关闭防火墙 systemctl disable ......

Colben ⋅ 今天 ⋅ 0

Yii2中findAll()的正确使用姿势/返回为空的处理办法

从一次错误的操作开始 $buildingObject = Building::findAll("status=1"); 1 这个调用看着没有任何毛病,但是在使用时返回的结果却是一个空数组。再回过头来看看数据表中: 按照套路来讲,查...

dragon_tech ⋅ 今天 ⋅ 0

如何优雅的编程——C语言界面的一点小建议

我们鼓励在编程时应有清晰的哲学思维,而不是给予硬性规则。我并不希望你们能认可所有的东西,因为它们只是观点,观点会随着时间的变化而变化。可是,如果不是直到现在把它们写在纸上,长久以...

柳猫 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部