OPPO自建数据中心低负载率下的PUE优化实践

原创
2023/08/23 20:00
阅读数 327
AI总结

01

   背景   

2023年受多方面因素影响,服务器需求数总体降低,根据研究机构TrendForce(集邦咨询)5月17日发布报告,由于四大 CSP陆续下调采购量,Dell 及 HPE 等 OEM 也在 2~4 月期间下调全年出货量预估,同比分别减少 15% 及 12%,加上国际形势及经济因素影响, 2023年服务器市场需求展望不佳,今年全球服务器整机出货量将因此再下修至 1,383.5 万台,同比减少 2.85%。
而数据中心的建设受交付周期的影响,通常具有一定的提前性,这导致数据中心机架数的供应量高于服务器需求量,目前主流的制冷系统为集中式的冷水机组+末端精密空调的形式,不具备模块化交付的能力,在此背景下数据中心不得不保持低负载的模式运行,这导致机电系统整体的能效表现较差。
往数据中心核心地段机柜供不 求,上架速度较快,负载率可以较快被拉上去,因此行业普遍不特别对低于 2 5 %负载率的工况进行优化,目前受服务器供应影响,低负载工况持续运行的时间会更长,且在各家公司专注精细化运营的新形势下,此部分的运营优化很有必要。

02

   数据中心能效是什么   

数据中心(Data Center,简称DC),即为集中放置的电子信息设备提供运行环境的建筑场所,包括主机房、辅助区、支持区和行政管理区等,是算力基础设施的重要底座。而其中耗能最多的即为数据中心的机电系统,主要为IT设备提供稳定优质的供电和冷却。

数据中心能效的好坏目前使用核心指标PUE(Power Usage Effectiveness,电能使用效率)来衡量,其计算方式为数据中心总用电量与IT设备用电量之比,总体来说PUE越低,用于IT设备上的电能比例越大,证明数据中心越节能。下图为2021年权威机构Uptime Institute 全球数据中心调研报告显示的全球PUE趋势,截止2022年普遍平均的PUE在1.55左右。


03

   OPPO自建自运营数据中心PUE优化实践   

OPPO 滨海湾数据中心 A 栋由南北两个模组组成,分别接入两路 10MW 的用电容量。据测算,优化前截止2022年底,日平均 PUE 约1.9~2.0,数据中心整体上架率低于10%,当日气温21-29℃,相对湿度60%-95%,属于较为凉爽天气,若在夏季测算,预计PUE会更高。

经过优化后,截至2023年八月,南模组周均PUE优化至约1.4,北模组周均PUE优化至1.4以下,IT负载率低于20%,本时段室外温度较高,属于炎热时间段,若从全年维度看,预计年均PUE会更低。

项目组通过总结实际优化经验,输出“能效管理规范”,“OPPO数据中心技术调优标准化体系”等文档,形成系统化的制度体系。优化过程中,一线运维团队深度参与,提升了一线同事对机电系统运行的理解,使其了解节能降耗的原理,此举有利于制度真正落地,实现日常化的降本和高可用。
3.1 报表制作,建立基线

若要对一个庞大的系统进行优化,需要先通过各种方式进行计量,以观察其系统的运行状态,同时有利于辅助验证结果,因此进行能效优化的第一步即为能效报表的制作。

报表制作完成后,技术人员通过识别整体现状,确认基线;而后综合考虑数据中心设计指标和未来上架节奏,制定了本年度客观合理的降本目标。通过详细分析数据中心主要的耗电设备,列出需要监控的设备点位。

根据实际情况可用生成月报表(以日为最小颗粒度),周报表(四小时颗粒度),日报表(以小时为颗粒度),月报表用于总览每月的运行情况,识别是否有异常情况,周报表用于定位和核实异常设备异常时段,日报表用于深度剖析异常原因,结合现场情况解决问题。
3.2 关键技术:暖通

暖通专业降本总体思路:由浅入深,由单点至全局。首先对单个独立设备进行排查和优化,进行简单的单点降本,可通过评估关闭不必要设备,在保证安全前提下调整单个设备逻辑阈值等实现,OPPO自有数据中心实际落实的举措如下:

a) 对液冷集群一次侧循环泵进行压差控制调节,水泵频率由50hz降低至37hz,减少用电功率XX kW,预计每年节省电费XX万元。
b) 空调 优化方案,关闭列间空调 XX 台,房间级空调 XX 台,降低末端空调功率 XX kW,预计节省电费 XX 万元
c) 执行恒湿机运行策略优化,关闭恒湿机XX台,降低末端功率XXkW,预计节省电费XX万元
d) 执行冷热通道封闭,采购新盲板,增加供回风温差,供回水温差,降低风侧和水侧的输配功率
e) 风侧 -风机滤网清洗,水侧-Y型过滤器清洗 ,减少输配过程中的压力损耗
水系统综合优化,综合考虑水侧的多个设备逻辑联动关系,确保系统级的最优能效:

f)预冷工况下板换有冷量短路问题,通过调节逻辑控制的测点,变更预冷模式下的切换阈值,修复该问题,本举措预计年节省电量不少于XX万

g)非主机制冷工况下冷却水泵自动加至满频,经变更逻辑,单台水泵的功率由XXkW降低至平均XXkW左右,南北两个模组节省电功率XXkW,预计每年节省电费XX万元

h)投入运营早期使用蓄冷罐蓄冷的运行策略,带来了以下三点好处:第一避免了冷机低负载时的喘振,第二避免整套暖通系统长时间低负载低效运行,第三可根据分时电价降低电单价,实现削峰填谷,期间本举措预计节省费用XX万

风液联调:综合考虑水系统和风系统的暖通系统整体能效最优化

i)低负载情况下水侧的冷量过剩,因此调大末端空调水阀,在水侧和IT负荷未增加的情况下,降低风侧风扇的用电量

–北模组包间内列间空调节省用电功率XXkW,预计每年节省电费XX万元

–对南北模组运营商接入间,弱电机房和测试机房空调进行设置,温湿度无明显变化,节省电功率XXkW,全年维度省电XX万元,本年度剩余事件节省电费XX万元

–对南北模组配电室一楼二楼精密空调进行参数调节,节省电功率XXKw,全年维度节省XX万,本年度剩余时间节省XX万

优化南北模组3/4楼AB路配电室运行策略,由冷备高转速转为热备低转速,温湿度无明显变化,节约电功率XXkW,全年维度节省电费XX万元,本年度剩余时间节省电费XX万元

3.3 关键技术:电气

电力专业降本总体思路:

电气系统的能效优化主要分为两个方面,即减少损耗和减少波动,减少损耗可以降低使用的电量,可通过UPS运行模式调整或者关闭部分非必须设备实现,而减少波动可减少数据中心每月的基本电费,可通过负载均衡实现。

a)柴发加热关闭,降低辅助系统用电功率XXkW,每年节省电费XX万元

b)完成AB路负载均衡措施,每月节省基础电费XX万元,预计每年节省电费XX万元

c)UPS运行策略优化,对UPS导入智能并机程序,减少UPS并机数量,提升UPS负载率和效率,减少损耗XXkW,全年维度节省电费XX万元

d)通过投切ATS进行动力UPS负载均衡,提升动力UPS负载率,降低UPS损耗

e)三四楼精密空调动力UPS的eco模式,减少UPS损耗XXkW,预计全年维度节省电费XX万元,本年度剩余时间节省XX万元

f)34楼全部的SVG有源谐波柜关闭,北模组降低电功率XXkW,全年维度降本XX万元,本年度降本XX万元;南模组降低电功率XXkW,全年维度降本XX万元,本年度降本XX万元

3.4 关键技术:其他

a)照明管理策略落地,照明功率由XXkW降至XXkW,年节约电费XX万元

b)雨水回收系统正式启用,减少市政水用量

c)A栋大门封堵,机房内部桥架封堵,降低数据中心湿度和恒湿机用电量


04

   总结   

近些年经济形势紧张,各家公司对成本都异常关注,可以预见的未来将会结束跑马圈地的粗放式发展,进入精细化运营的时代,云类资源发展也不例外。 数据中心作为云的底座,能源成本占运营成本的大头。此次项目仅作为初步的尝试,后面会持续地对数据中心运行进行优化,以求达致最优的能效,这在降本增效大背景下非常有意义。

此类降本优化的项目从来不是一蹴而就的,需要相关工作人员在日常工作中发现可优化的点,每次发现一个点,优化一个点,日积月累才能实现质的突破,此类知识能力的积累也会变成公司难以被复制的技术竞争力,可以在未来的项目中加以复用和延伸。

对于新建数据中心而言,在选择技术架构时,可考虑模块化分布式的架构,IT上架时可按需开启,在一定程度上可以避免低IT负载情况下大马拉小车的情况。

但从另一个角度来看,系统的可用性与经济性从来都是呈现负相关的,在能效优化的过程中需要平衡可用性与经济性的关系,不能因为节省一些电费导致业务中断,因小失大。

以上为oppo数据中心在低负载下的PUE优化的首次实践,欢迎行业内专家共同交流,为整个行业的节能降耗提供宝贵技术经验。
作者介绍
ALAN KONG 孔庆一 
OPPO IDC 工程师 LEED AP BD+C

主要从事IDC基础设施技术运营工作

END
About AndesBrain

安第斯智能云
OPPO 安第斯智能云(AndesBrain)是服务个人、家庭与开发者的泛终端智能云,致力于“让终端更智能”。安第斯智能云提供端云协同的数据存储与智能计算服务,是万物互融的“数智大脑”。


本文分享自微信公众号 - 安第斯智能云(OPPO_tech)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
AI总结
返回顶部
顶部