金融数据中心作为金融机构的心脏,承载着所有IT系统,牵一发而动全身,轻则影响几台设备、机柜,重则造成整个机房宕机。越是底层基础设施,故障影响范围就越广泛,数据中心“风火水电”等基础设施可谓是重中之重。因此,各金融机构愈发重视数据中心基础设施的管理,不但体现在近年来投资建设规模日益扩大,还反映在对运维管理方面越来越重视。厦门国际银行历来十分重视数据中心的发展,作为银行金融科技数字化智慧转型的重要支撑设施,厦门国际银行数据中心规模正日益壮大。在厦门国际银行数据中心规模不断壮大发展的过程中,科技运维部作为见证者和守护者,也在不断地总结和思考。面对不同阶段不同发展规模的数据中心,建设和管理面临的挑战和压力不断加大,对运维管理思路和要求也不断提高。为降低数据中心可靠性风险,首先,数据中心的建设必须科学化,采用科学合理的规划设计方案;其次,在日常数据中心运维管理中,还要做到规范化与精细化。从建设和运维两个维度双管齐下,方能最大化程度降低数据中心相关风险。
数据中心建设科学化
数据中心建设不但要满足未来至少十年的业务发展需求,还要考虑到当前行业趋势,确保数据中心低碳、绿色、环保、降低CTO。厦门国际银行在数据中心规划建设上,积极践行社会责任,数据中心PUE规划指标严格遵循国家发展和改革委员会对PUE的相关要求,确保PUE降低到1.3以下,在规划设计方案上,采用以下措施确保实现PUE设计目标。
1. 最大化程度利用自然冷源。结合场地条件和当地气候条件,创新性地采用冷冻水系统+间接蒸发冷相结合的方案作为数据中心制冷方案,从根本上解决南方地区PUE难题并保障PUE低于1.3的设计目标;
2. 余热回收。利用余热回收技术,将数据中心IT负载散发的热量回收供给园区综合楼游泳池,实现游泳池的恒温。在极端缺水和停水场景下,还可以将泳池的水经过净化和软化水处理设备处理后作为后备储水,实现泳池和数据中心制冷之间的双向利用;
3. 光伏及储能。根据最新技术及最佳实践,数据中心规划设计了园区光储充一体化低碳系统,辅助厦门国际银行完成节能目标制定。基于绿色、节能、低碳的理念,提出并设计在数据中心屋顶设置单晶硅光伏系统,在储水蓄水罐表面设置碲化镉薄膜光伏系统,园区绿色储能系统并用于园区电车充电的低碳架构。
数据中心管理规范化
数据中心管理规范化,要从全生命周期的源头设计规划抓起,贯穿于施工、测试验证和投产后日常运维阶段等数据中心管理的全生命周期。
1. 需求分析阶段。在需求分析阶段,应认真研究国家政策和监管红线,比如近年来发改委对新建数据中心PUE已经提出明确指标。在对数据中心规划的时候,一定要测算当前数据中心机柜规模达到的规模等级,明确了解自己的数据中心规模是中型、大型、还是超大型?因为不同规模分别对应着不同的PUE指标要求。否则容易造成数据中心一投产就面临不符合监管政策要求的风险。
2. 初步设计阶段。在初步设计阶段,严格遵守标准规范,认真研究比对GB 50174-2017《数据中心设计规范》中对A类数据中心机房的各项设计指标要求,特别是建筑条件方面,从一开始就要确保符合机房场地条件,比如承重、设备安装空间、作业维护空间等。否则容易造成场地条件先入为主,还没施工就已经对数据中心机电设施形成各种制约。比如可能会由于场地空间在设计阶段考虑得不够周全,导致只有某个厂家产品才能适配,造成设备选型只能单一品牌导致商务选型陷于被动;再比如建筑结构很难满足数据中心场地布局要求,使机房分区规划不合理,空调室外机无法安装或距离太远,动力室与主机房距离太远,增大传输和管理困难,增加成本,降低可靠性,后续运维场地空间不够而存在的风险隐患等诸多问题。
3. 深化设计阶段。在深化设计阶段,各种设计指标参数的测算要随着设计的逐步深化和明确进一步规范化。比如对PUE的测算,PUE作为数据中心各项成果指标的重要代表,在规划设计时各设计单位都会进行系统性的测算,但目前依然存在对PUE指标数值存在以反推的目标数值标准来逐步反向调整测算过程和依据的现象,更甚者在没有科学合理依据的前提下,随意调整设定数值以此来满足PUE测算目标。此类本末倒置的不规范设计,往往造成后续实际运行时发现PUE指标居高不下,远离当初设计的目标值,但已然无法回头。
4. 测试验证阶段。在测试验证阶段,要充分重视测试验证工作的科学性。应全面模拟验证各类设备在各种工况下的模拟运行情况,确保各系统能满足设计目标,重点关注系统可靠性和冗余备份切换。同时要确保测试验证工作前置到设计和施工阶段,否则容易造成等到后续测试验证发现问题的时候,很多隐蔽工程、机电设备已经安装到位不具备整改条件或者改造成本巨大,造成新建的数据中心带“病”投产。
5. 投产运维阶段。在运维阶段,要确保各个流程的规范性,具备规范的数据中心运行业务流程。
(1)制定标准的操作程序流程SOP (Standard Operation Procedure)。将工作的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的运维工作;只有这样才能做到“铁打的营盘流水的兵”,各个岗位日常操作尽量实现标准化,降低一线人员操作风险;
(2)制定标准的维护操作流程MOP (Maintenance Operation Process)。用于规范和明确数据中心基础设施维护工作中各项设施的维护保养审批流程及操作步骤,维护操作流程包括了设备的维护、保养、预防性巡检等流程内容;否则数据中心设备在常年运行中,什么时候该保养,什么时候该进行预防性巡检,没有系统的流程容易造成贻误;
(3)制定标准的应急操作流程EOP (Emergency Operating Procedures)。用于规范应急操作过程中的流程及操作步骤。运维人员可以迅速启动,确保有序、有效地组织实施各项应对措施。
数据中心管理精细化
精细化的流程对于整体数据中心运维风险把控至关重要。精细化需要压实落实到日常运维管理细节中,并要求团队严格执行。厦门国际银行数据中心基础设施运维管理团队在日常运维中结合实际工作情况不断优化和细化,具体表现在以下几个方面。
1.巡检精细化。建立严格的巡检机制,定点、定时、定人完成固定的巡检内容,巡检表单全面覆盖所有数据中心风火水电设施。通过对巡检人员持续培训,增加对设备运行状态分析及故障判断能力的培训,防止值班人员变为单纯的“抄表君”。同时通过一些辅助手段,增加巡检的直观性,降低人员意识风险。如将设备正常状态下开关状态和灯的颜色拍成照片并打印粘贴在设备旁边,巡检人员可以做到快速比对,减少对个人经验的依赖。
2. U位空间管理精细化。厦门国际银行通过设备上下架流程管控,并辅以机柜U位自动化管理系统,实现设备上下架审批流程化,空间占用统计电子化、自动化。每个机柜的设备上架和空间占用情况一目了然。通过对资产条状态灯的识别和判断,一眼就可以识别哪个位置空间已经被占用、哪个位置可以上架。
3. 库存管理精细化。通过库存管理系统,辅以日常出入库登记和审批,并定期盘点,实现各类辅材、运维工具的定位、定量管理。备件库房门禁管理,内部无死角摄像头监控,重要仪器仪表分门别类摆放并登记在册。
4. 风险管理精细化。风险管理的精细化,体现在对各类流程的不断优化和梳理,通过对每个环节的细化推敲,逐步降低潜在的风险。众所周知,柴发是数据中心不可忽略的后备支援力量,一旦市电中断,柴发必须能够在最短的时间内顺利启动。为保障柴发能够应急启动,需要每个月定期空载启动测试、每个季度带载演练。为确保带载演练的真实性,满足真实灾备需求,数据中心维护团队每季度会开展双路市电故障场景下的柴发模拟切换演练。该演练带有一定的风险性,常规做法下,很多数据中心都是直接逐步切断两路高压市电进行演练,可想而知,在这样的场景下,无疑人为地制造了一年四次的双路市电中断风险。厦门国际银行数据中心运维团队始终保持敬畏心,通过对整个演练流程不断观察和分析后,最终优化到先保证一路UPS可靠带载的情况下,又能真实模拟高压市电故障的情况,做到既贴近真实灾备故障场景,又最大程度做到风险可控,避免因为演练造成真实的故障悲剧。
随着厦门国际银行数据中心不断发展,下一步,厦门国际银行科技运维部将继续做好数据中心规范化、精细化管理,通过对运维流程和经验不断梳理总结,发掘并降低数据中心潜在风险,实现科学化管理,为银行金融科技数字化智慧转型奠定稳固的基础磐石。
本文标题:金融数据中心建设与管理实践思考
本文链接:https://www.blueocean-china.net/faq3/636.html [版权声明]除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。