10.1.京东云华东数据中心设施运维管理
随着大数据、云计算、智慧城市、移动互联网和物联网等应用的快速发展,各行各业对于数据中心的需求量越来越大。数据中心单体规模越大、系统越复杂,其脆弱性也越高,对于数据中心运行维护管理水平的要求也就越高。
数据中心运维管理的范围很广泛,也是数据中心生命周期中最长的一个阶段,主要包括基础设施、各种IT设备、信息与数据、应用软件等。运维管理的好坏很大程度上决定了数据中心的使用寿命。本章主要介绍京东云华东数据中心在基础设施运维管理方面所做的努力。
数据中心设施运维管理是为了确保数据中心基础设施为电子信息系统提供稳定可靠的运行环境,确保电子信息系统和其支持系统能够安全、稳定、可靠、持续并高能效地运行,实现运行维护的及时性、规范性、安全性和可用性。
10.1.1.京东云华东数据中心设施运维管理的目标和内容
设施运维管理的基本目标包括:
1)对与信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制。
2)依托于已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。
“三分技术,七分管理”。大量的事实表明,数据中心运行的好与差,评判标准很大程度上是由管理水平的高低所决定的。一个数据中心即便采用了最新的技术,如果运维管理不当,一定不是一个好的数据中心。一个好的数据中心会通过科学的运维管理,充分利用本身现有的技术和设备,将运行成本降到最低,而使能源利用最大化。
京东云华东数据中心设施运维管理还有一个非常重要的目标是“建立一套持续改进的机制”,这点往往容易被人们忽略。数据中心设施运维管理与数据中心设施系统建设阶段的项目管理有很大的不同。项目管理是一次性的,必须保障“当前最佳”,因为没有机会推倒重来;而数据中心运维管理是一个不断循环迭代的过程。“一套持续改进的机制”可以保障数据中心运行效率不断提高、运行成本不断降低。数据中心的设施运维工作是一个不断改善的过程,正所谓“没有最好,只有更好”。
所谓运行,是指对数据中心设施系统与设备进行日常地启停控制、参数设置、状态监控和优化调节,以确保电子信息系统和设施系统自身获得安全、高效的运行环境。
所谓维护,是指为保证数据中心设施系统与设备具备正常运行所需要的条件,达到提高可靠性、排除隐患、延长寿命期等目的所进行的工作,包括定期巡检、检测、维护和保养等。
设施运行维护对象应包括如下系统:
10.1.2.京东云华东数据中心设施运维管理制度
1.人员管理
人是数据中心设施运维管理的基础,也是管理的核心。京东云华东数据中心的设施运维团队按照工作内容划分为以下两个主要职能:
2.设施管理
1)设备台账制度
给每个独立的数据中心模块建立完整并实时更新的设备台账。台账包括所有关键基础设施设备的清单,并完整记录这些设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。
对影响安全运行的关键设备,如UPS、冷水机组、精密空调等的设定参数以及关键点的报警阀值制定了统一管理制度,结合数据中心实际运行情况经技术讨论后按统一参数值设定,运维巡检人员不可以随意修改。
2)预防性维护计划
为延长设备的使用寿命,减少设备故障的概率,必须对所有设备设施进行有计划地维护。通过定期检查和保养,是设备设施的某些缺陷或隐患在变得更严重之前被发现。
3)维修工单制度
运维人员在接到工单时,能明确获悉工作任务与注意事项,提前熟悉操作流程,做到心中有数;在维修操作过程中,工单也可以起到指导操作的作用;在维修工作结束交单、备案归档。如在维修过程中遇到困难,亦可以向技术管理层及时反馈,做到闭环控制。
4)操作流程
对数据中心基础设施的所有操作,都事先制定详细规范的操作流程,并要求每一位运维人员在开展运维工作时严格按照流程执行,主要包括:
5)备件、耗材、仪器、工具管理
运维团队根据设备台账及其分类制定最低备件和耗材的库存清单并及时补充备件和耗材。为规范仓库管理,指定专门的库房管理员,定期盘点库存,公示库存情况。凡申请备件和耗材的运维人员必须实名填写申请单,说明申请缘由和数量,由管理员登记在案。物资的出库、入库必须经由管理员清点记录,其他人不得随意进出库房。管理员需保证库房安全,物资完好无损,不出事故。
6)生命周期管理
运维核心团队基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的计划或预算,及时报告给上级主管部门。
3.运行管理
1)日常巡检及交接班管理
在正常开展运维工作时采用A、B角色配置,至少保证两名不同工种的运维工程师配合巡检,同时保证值班室留人员,及时通报数据中心运行状态异常情况,重要问题就近人员应急处理。
2)安全防范制度
机房区域设有7×24小时视频监控,所有进入监控区的人员活动情况将被监控系统记录保存90天以上。
3)机房清洁管理
划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。在重要区域进行保洁工作时必须有运维人员现场监督和指导。
4)事件管理
数据中心故障按照影响程度的不同分为四类事件。运维团队制定事件管理流程,明确不同等级事件下相应的处理流程。在数据中心故障发生时,严格按照事件的类型进行升级报告。
一级事件
二级事件
三级事件
四级事件
现场运维工程师
3分钟内报告运维主管
运维工程师现场处理
运维主管
5分钟内报告运维经理
运维经理
10分钟内报告运维总监
运维总监
5分钟内报告主管VP
5)应急响应
运维团队针对影响运维人员身体健康的人身事故制定应急流程并定期演练,包括设置现场急救包以及联系当地医疗急救机构的方式等。
6)容量管理
主要包括IT设备摆放空间、基础设备设施摆放空间、综合布线线路空间和配线架的管理。
主要包括电力供应容量、制冷供应容量、综合布线信息点容量的管理。
运维团队定期填写运维周报和月报,如实记录数据中心空间容量和基础设施使用情况的变化,便于上级管理人员进行能源审计和能耗分析,掌握数据中心的整体利用率,预测业务增长趋势,提前制定扩容或新建数据中心的计划。
7)能效管理
京东华东云数据中心PUE的计算方法见图10.3.2-1:
图10.3.2-1京东云华东数据中心PUE计算方法
根据实际运行数据分析,在低压配电系统中,UPS系统用电量占比约68%~75%,冷源系统系统用电量占比约15%~20%,精密空调系统用电量占比约3%~5%,照明、通风、办公等其他用电量占比不到5%。所以,数据中心能效管理的目标是在保证电子信息系统安全高效运行的前提下,重点对UPS系统和冷源系统的运行控制策略进行合理优化,降低整体PUE。
由UPS效率曲线(图10.3.2-2)可以得出,负载率在10%以下时,UPS效率基本小于80%;负载率在10%~20%之间,UPS效率在80%~90%;负载率大于20%后,UPS效率大于90%;在负载率30%以上时,UPS效率曲线接近于直线,负载率的变化几乎不再影响UPS效率变化。
图10.3.2-2UPS效率曲线
京东华东云数据中心采取UPS逆变器模块休眠技术,前期在UPS低负荷运行时,关闭一定数量的模块,让单机UPS达到较高的负载量,从而提高UPS的效率。这样,只要使得UPS单机负载在30%以上,在低负载时效率已经可到达几乎满载时的效率。
另外,休眠功能还有一个令数据中心担心的问题是休眠后能否及时唤醒的问题,若休眠模块不能及时唤醒,那么,带载的模块就可能出现过载保护的情况。本项目采取的运行策略是,在带载逆变器负荷率大于60%时,就唤醒休眠的模块带载。
对冷源系统冷量的瞬时值和累积值进行监测,冷水机组优先采用由冷量优化控制运行台数的方式。对于京东云华东数据中心选用的三级压缩离心式冷水机组来说,40%~80%负载为其高效率区。所以根据系统负荷的变化,合理控制冷水机组的开启台数,使机组负载经常保持在高效区运行,对于机组节能有显著效果。
图10.3.2-3三级压缩离心式冷水机组能效曲线
在自然冷却状态下,关闭冷水机组使其进入待用状态,只开启冷冻和冷却水泵、冷却塔,保持供水水温在16度以下。在完全免费制冷季切换到常规制冷季过渡时段(即气温小幅升高基本稳定,但未到常规制冷设计室外状态点),可先开启一组冷源设备,将冷水机组和冷却塔切换为常规制冷状态,待该组冷源供冷稳定后关闭;随气温缓慢升高,按照以上操作,逐步增加切换机组的数量,直至将全部冷水机组切换为常规制冷状态,自然冷却工况结束。从常规制冷季到完全免费制冷季,可按完全相反的顺序进行操作切换。
对于加装了变频器的电动设备,比如水泵和冷却塔,保证设备频率随冷量变化动态调整很重要。前文中有提到,变频设备的流量与频率比成正比,功耗与频率比的三次方成正比。多台并机、降频运行可以极大地节省设备功耗。不过为避免水泵本体过热,频率不宜低于30Hz。
图10.3.2-4京东云华东数据中心变频水泵的测试验证数据
图10.3.2-5京东云华东数据中心变频水泵的功率曲线
京东云华东数据中心的精密空调全部采用EC风机,对EC风机的优化控制可以帮助降低精密空调系统的能耗。如下图所示,横坐标表示EC风机实际运行风量与额定风量的比值,纵坐标表示EC风机实际功耗与额定功耗的比值。可以看出,随着EC风机风量的减少,功耗不断下降。现场实测试数据显示,50%以下风量时,功耗下降并不明显,而且运行风险增大,所以EC风机的风量设置不宜低于50%。当主机房IT负载未达到满载时,增加精密空调运行数量,降低单台空调风量有助于节能。
图10.3.2-6京东云华东数据中心实测EC风机风量比与能耗比的关系曲线
10.1.1.京东云华东数据中心设施运维管理平台
京东云华东数据中心是按照世界一流数据中心的理念设计和建设的,按照国际先进的运营管理模式投入运行,并为之设计了一套先进、可靠的智能化基础设施运维管理平台进行系统性支撑。
系统平台围绕着以下目标进行设计和建设:
京东云华东数据中心园区包含4个数据中心模块,每个模块配置一个独立的监控中心,整个园区设置一个综合监控中心ECC(位于园区中心)。
模块级的监控系统对基础设施的监控内容包括:电气部分(UPS、ATS、精密配电柜、智能电量仪表、防雷开关、蓄电池输入开关);动力部分(精密空调、冷水机组、水泵);环境部分(温湿度、漏水监测、可燃气体浓度监测等)。系统对被监控设备进行实时的监测和展示。其集成的子系统包括:高压电力监控系统(含柴油发电机、10KV进线柜、馈线柜、直流电源屏、变压器、配电开关监测等)、柴发供油控制系统。
园区级的监控平台可实现以下功能:
2.模块级监控系统架构
系统架构包含现场设备数据采集层、现场设备监控层和集中监控层。
集中管理平台配置了“双服务器+双数据库”,实现容错配置。
图10.3.3-1模块级监控系统界面(一)
图10.3.3-2模块级监控系统界面(二)
3.园区级监控系统架构
京东云(华东)数据中心综合智能监控管理平台,可以实现对数据中心各设备和系统的统一监控与管理,减轻维护人员工作负担,同时提高整个系统的运行可靠性、稳定性和兼容性、可扩性,实现机房的科学管理。
图10.3.3-3ECC控制中心大屏幕系统
1)园区系统平台架构
着眼数据中心园区的整体规划,系统采用“分布式”结构,满足全天24小时运行,自动故障报警监测。系统能在分布式结构的基础上方便实现新设备、新子系统的接入。系统预留北向接口,为京东总部的数据中心云平台提供数据。
图10.3.3-4园区级监控平台架构图
1)基础设施模块功能
基础设施管理模块是集高压供电系统、低压UPS保障系统、冷水控制系统、环控系统、消防报警系统、视频监控系统、门禁系统等实时监控、操作为一体的操作平台。基础设施模块的构成如图10-4-6所示。
图10.3.3-5基础设施模块构成图
1)客户服务模块功能
图10.3.3-6客户服务管理模块构成图
1)客户自助服务模块功能
客户自服务模块支持客户对自有设备的查看,以及对IDC机房日常需求的申请发起。客户自服务模块功能如图10-4-8所示。
图10.3.3-7客户自服务模块构成图
1)大屏展示模块功能
图10.3.3-8大屏展示模块构成图
京东云华东数据中心是京东技术转型的一个全新尝试。从它目前运营的稳定情况来说无疑是成功的。这是一个可贵的开始,意味着京东厚积薄发的技术实力得到了实践的验证,也为今后在数据中心行业的技术探索增强了信心。