数据中心能耗是行业一贯重视的问题,传统的风冷散热方式对降低数据中心能耗具有一定的效果,但高密度大型数据中心不断涌现时,液冷技术能带来更加直接的散热优势。浸没、冷板、喷淋是目前液冷的3种主要部署方式,且都有一定的市场应用。随着计算性能和密度提升,后续数据中心和服务器行业将面临重构的挑战。
1 引言
一直以来,数据中心能耗都居高不下。尤其是我国数据中心行业发展比较晚,建设标准相对滞后,数据中心PUE普遍在2.2~3.0之间。高能耗不仅给企业带来沉重负担,也给社会能源造成巨大浪费。
随着云计算和大数据技术的蓬勃发展,实际业务对底层基础设施的性能要求越来越高。性能的提高直接导致服务器功耗的不断增加,特别是作为服务器关键部件的 CPU,随着性能提升功耗增加非常显著。英特尔上一代的 Sandy Bridge 功耗为 135W,最新一代的Skylake 功耗达到了 240W。在单机柜服务器数量不变的情况下,整柜的功耗几乎翻番,可以预见,这会给机房的散热带来多么大的挑战。
按照相关预测,移动产品和其产生的数据总量今后还会持续高速增长,数据中心必须向高密度配置服务器迈进。为了应对这样的变化,冷却技术也需要随之革新。2013 年,工业和信息化部发布《关于数据中心建设布局的指导意见》,国内的大型数据中心也开始往气候适宜、能源充足的地区建设,例如内蒙古、山西北部等,这些迁移确实给数据中心的节能带来了收益,但还是无法从根本上满足服务器大功耗高密度部署带来的散热需求。
2 液冷系统的优势
液冷技术并不是一个全新的概念,在卫星、火箭发动机等航天领域也已有很长的应用历史,而在数据中心领域,20 世纪 60 年代起大型主机已经开始采用,最为人们熟知的是 IBM 的 System/360 型 91 大型计算机。虽然大家都认可液冷的实用性,也有较好的实践成果,但由于在较低热度负荷时风冷的成本很低,且安装部署更为简单,所以 IT 产业在随后的 60 多年里大规模使用的是风冷散热系统。随着时间的推移和技术的进步,计算机芯片的密度越来越高,所要处理的计算工作也越来越复杂,热度负荷节节攀升,液冷技术逐渐被产业界拉出来“救火”。在液冷越来越频繁地出现在数据中心时,也更为清晰地看到了它的优势。
(1)比热容大,散热效率高效
液冷是指使用液体作为热量传输的媒介降低数据中心温度,液体可以直接导向热源带走热量,不需要像风冷一样间接通过空气制冷。液冷将大部分热量通过循环介质带走,单台服务器需求风量降低,机房整体送风需求也随之降低,大大减少机房回流导致的局部热点。液冷有效抑制了 CPU 等元件内部温度的瞬间提升,因此可以在一定程度上允许 CPU 超频工作并增大密集部署,提高集成度。此外,液体的比热容远远高于气体,可以吸收大量的热而保持温度变化不大,散热效率得到极大提升。
(2)降低能耗,减少支出成本
2017 年,我国在用数据中心机架总体规模 166 万架,在运行中产生了大量的电量消耗。这些惊人的耗电量背后是高昂的电费支出,其中散热系统占绝大部分。采用液冷技术后,风扇、空调等不间断耗电的风冷方式可以被全部或部分取代,能耗迅速降低。以市面上某款液冷服务器为例,在 CPU 芯片和内存上安装了固定水冷板以解决服务器核心部件散热问题。与风冷相比,CPU 满载工作时的核温降低了 20℃,整机能耗降低了5%。
(3)节能环保,降低噪音指标
调查显示,电力在数据中心的能源消耗只有小部分是供给 IT 负荷,绝大部分都来自散热负荷,散热能耗远高于 IT 设备能耗本身。通过液冷系统削减散热系统的消耗,可以大大降低整个数据中心的能源消耗,极大降低 PUE。此外,由于液冷系统的泵或其他仪器比风扇的声音更小,整个液冷系统的噪音比风冷系统大幅降低,基本可达到“静音机房”的效果。
3 液体冷却方式
数据通信设备的液体冷却系统的冷却子系统可以认为是一种液体回路,其中冷却液体与要冷却的部件做热交换。有些情况下,冷却系统的水由机架由CDU提供,也可以由服务多个机架的外部CDU提供。
有关数据中心内潜在的液体冷却系统和回路以及使用的术语的详细信息参见图1。
图1 数据中心内的液体冷却系统和回路示例
为了解决数据中心的高效散热问题,产业界做了大量的尝试。本文提到的利用自然冷源进行 Free Cooling 是能带来PUE降低的一种好方法。此外,产业界在液冷方面也开始进行尝试,目前来看液冷主要有冷板、浸没和喷淋3种技术路线。
3.1 冷板式液冷
冷板式液冷的主要部署方式是在液冷机柜上配置分水器,给液冷计算节点提供进出水分支管路,分支管路进出水管分别与液冷计算节点的进出水口通过接头对接,与液冷计算节点的内冷板管路连通,实现液冷计算节点内液冷循环。液冷计算节点的液体在机柜级汇聚,机柜级有一进一出两个与外部管路连接的接头,该接头与外置或内置 CDU 连接,实现液冷整机液冷循环,并带走液冷计算节点的热量。在冷板式液冷系统里的液冷节点中,CPU 等大功耗部件采用液冷冷板散热,其他入硬盘、接口卡等少量发热器件仍采用风冷散热系统。
这种散热方式同风冷相比,密度更高、更节能、防噪音效果更好。由于冷板式液冷技术不需要昂贵的水冷机组,所以部署这种技术后,在减少总体拥有成本的同时,显著增加了数据中心的能源利用效率。目前,在风冷技术下,每机柜的功耗最多只能到30kW。而冷板式液冷在每分钟 60 升的流量配置下,能达到总功耗45kW每机柜,这样可以实现更高密度的数据中心.
3.2 浸没式液冷
浸没式液冷是近年备受业界关注的新型散热技术,尤其在 SC14 全球超级计算大会上,来自国内外的多家服务器企业均展示了在浸没液冷散热上的产品,大幅提高了业界对液冷的关注度。浸没式液冷系统为一种新型高效、绿色节能的数据中心冷却解决方案。
浸没式液冷具有明显的优势。首先,在浸没式液冷中,冷却液与发热设备直接接触,具有较低的对流热阻,传热系数高;其次,冷却液具有较高的热导率和比热容,运行温度变化率较小;再次,这种方式无需风扇,降低了能耗和噪音,制冷效率高;最后,冷却液绝缘性能优良,闪点高不易燃,且无毒、无害、无腐蚀。所以液冷技术适用于对热流密度、绿色节能需求高的大型数据中心、超级计算、工业及其他计算领域和科研机构,特别是对于地处严寒、高海拔地区,或者地势较为特殊、空间有限的数据中心,以及对环境噪音要求较高,距离人群办公、居住场所较近,需要静音的数据中心具有明显的优势。
但遗憾的是,受限于技术实现的难度,目前参与浸没液冷服务器设计的企业对浸没液冷的应用也仅局限于单机测试、单机展示阶段,从公开的信息来看,并无服务器集群部署先例。浸没相对于板级来看,由于更加直接的热交换,散热效率更高,但也会带来很多的技术挑战。
3.3 喷淋式液冷
喷淋式液冷系统采用某种冷却液并通过冷却液直接或者间接吸热带走器件所释放的废热至IDC外部环境进行集中散热的散热形式。喷淋式液冷作为液冷的一种,其主要特征为绝缘非腐蚀特性的冷却液直接喷淋到发热器件表面或者是与发热器件接触的扩展表面上吸热后并排走,排走的热流体通过直接与间接与外部环境大冷源进行热交换。
喷淋式液冷是指对IT设备进行改造部署相应的喷淋器件。在设备运行时,有针对性地对发热过高器件进行冷却的一种液冷实现方式。这种方式的特点是不需要对机房基础设施做太大的改动,只需要对服务器进行少量的改造就能实现较好的冷却性能。
喷淋式液冷机柜系统包括喷淋式液冷机柜系统(含管路、布液系统、回液系统和PDU等部件)、液冷服务器、冷却液 3 部分。喷淋式液冷机柜通过管路与室内热交换器相连接,即机柜内芯片的废热被冷却液吸收后传递到到室内热交换器并与室外热交换器进行换热。在该系统中,服务器内部各个发热器件要求采用分布式布局,建议发热器件的传热表面的方向不与重力方向相同;机柜内部器件电功率建议不超过 56kW;服务器内部无风扇,机械硬盘需要保护和隔离;各个接口可以实现快拔快插。
喷淋液冷系统具有器件集成度高、散热效率强、高效节能和静音等特点,是解决大功耗机柜在 IDC 机房部署以及降低 IT 系统制冷费用,提升能效,降低 TCO的有效手段之一。
4 国外的尝试
为了节能,国外做了很多大胆的尝试,例如微软在海底建设了自给型数据中心、Facebook 在靠近北极圈的地方建设数据中心等,但这些主要是依靠环境温度进行节能控制,如果回顾液冷技术在数据中心领域的发展,大概可以追溯到20世纪60年代。
1966 年,IBM 推出了 System/360 型 91 大型计算机,这款巨无霸产品以高速度和高性能优势被运用在大型科学计算中,如太空探索、全球气候预测等。为了保证这个史无前例的大型机的稳定性和高效性,IBM 专门研发了水冷系统。随后的几十年里,由于在热负荷不高的场景下风冷成本更低、技术更简单易行,液冷渐渐消沉。虽然 IBM 也先后在 3081 大型机和 Power 575 超算上应用了新型水冷技术,但真正较为系统和成熟的应用是在 2010 年 7 月,IBM 的“热水”降温超算 Aquasar。它的出现再次开启了液冷时代的新纪元,也助推 IBM 重回液冷巅峰宝座。如今,IBM在德国慕尼黑部署超算中心(LRZ)SuperMUC,采用了 40℃的温水作为 IT 设备制冷的冷媒工质,散热效率比普通风冷高 4000 倍,其产生的热水可以给 LRZ超级计算机中心园区的其他生活建筑供热,每年可节省约 125 万美元开支。
与 IBM 直 接 用 水 制 冷 不 同 ,Intel 与 Green Revolution Cooling(GRC)历经一年合作后,推出了矿物油浸没散热系统。GRC是在美国国家科学基金会的初始资助下于 2009 年成立的一家公司,至今成立不到10 年,但已在液体冷却技术解决方案上颇有建树和声望。推出的这套系统中的矿物油比热容是空气的 1200倍,试验数据表明冷却效果比传统的空气冷却的耗能要低90%~95%。
除了 Intel 和 GRC,美国的 3M公司也在浸没式液冷上有所突破。研制了一种被称为 NOVEC 的绝缘冷却液,这种液体比一般的纯净水、氟化液或矿物油的沸点更低,使用时很容易像水一样呈沸腾状态。在3M的液冷系统中,NOVEC 吸热沸腾变为蒸汽到顶部冷凝端,释放热量冷却为液态,循环往复逐渐降热。
2018 年,在 I/O 开发者大会上,Google 推出了专为机器学习设计的芯片TPU的第三代,一个TPU3.0部署可提供超过 100 Petaflops 的运算能力,高密度的设计和高性能的计算速度让 Google不得不在其数据中心中引入液冷技术。这也是 Google 第一次在其数据中心中使用液冷,据猜测 Google 使用的是冷板式技术,具体技术细节还未公开。
国外在液冷技术上的尝试多多少少都是受性能所迫,当传统的配套设施无法满足日益增长的计算和性能需求时,新的技术势必会被催生,液冷也是在这个情境下重整旗鼓逐渐被厂商们重视起来。
5 问题和思路
目前来看,部署液冷还需要面对很多问题。
(1)原有机房适配的问题。传统机房的承重、管路等设计均来自传统机柜的规格。而在液冷方式下,由于制冷方式的转变,部署环境将会有很大的不同。如果在传统机房部署液冷系统会带来部署成本、部署难度等方面的问题。
(2)对于浸没式和喷淋式等接触式液冷,液体和 IT部件之间的兼容性是需要考虑的一个重要方面。IT 部件长期浸泡在相关液体中,是否会对其功能和性能带来影响需要关注和验证。另外,液体对人体和环境的友好性也至关重要。
(3)液冷的行业标准缺失将会阻碍技术的发展。目前,各企业关于液冷的研发处于各自为战野蛮生长的状态,亟需相关的行业标准组织对液冷的标准化进行管理。对液体、供配电、管控、安防和运维等各个方面制定明确的技术要求,促进液冷技术的良性发展。
(4)我国各大服务器厂商基本都在进行液冷服务器的研发。如果国家能有相关专项进行研发资金的支持,将会更好地推动液冷技术国产化的发展,拉近我国与国际先进水平的距离,更好地实现液冷由中国制造向中国智造的转变。
液冷是一项投入巨大、产出过程较慢的高技术系统工程。除了必须具备传统服务器的设计研发能力之外,还需要有流体相关的经验积累。目前,国内仅有曙光、华为、联想、浪潮等几个传统服务器厂商具有相关产品,此外绿色云图、广东合一也在浸没式和喷淋式液冷方面积累了一定的经验。
我国数据中心行业组织开放数据中心技术推进委员会(ODCC)于 2017 年成立了液冷项目组,与上述企业以及中国信息通信研究院、百度、腾讯、阿里、美团、京东、中国移动、中国电信等用户单位一起,发起液冷系列规范的编写。整个技术规范将从液体、管线、IT 设备、配电等方面进行考量,还对液冷系统的测试验证做了相应规划,包括基础性能、应用性能、热工性能、变负载、可靠性等各个方面。系列规范已于 2018 年10月16日“2018开放数据中心峰会”上正式发布。
6 结束语
液冷技术起步不久,还有很多问题亟待解决。例如,机房的承重问题,1.5T/m2以上的载荷会对老旧机房的地板带来巨大压力;还有硬盘的失效率问题,从目前技术来看,硬盘的失效率并不会因为温度降低而降低。另外,液冷的行业标准目前还一片空白,虽然标准上的开放可以助推更多创新技术出世,但这对于液冷的性能安全、配套设施、人员监管、市场推广等长远发展其实都很不利。
液冷服务器的部署对于数据中心机房的要求、制冷的要求、服务器部件的要求等发生了颠覆性变化,所以液冷将会给服务器甚至数据中心的整个产业链带来一次重构,这也体现了数据中心行业多专业融合的趋势,对于整个行业来说将是巨大的挑战。
来源:网络
本文标题:对液冷技术及其发展的探讨
本文链接:https://www.blueocean-china.net/faq1/232.html [版权声明]除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。