研究背景
随着科技的成长,需要被存储、传送、计算等的资料也愈来愈庞大,为了方便管理与规模发展,设置各式高密度服务器的设施作为数据中心,而未来随着物联网、云存储、大数据、人工智能和5G等领域的加速发展,对身为数据和信息处理平台的数据中心,其需求也将越来越大,而数据中心在运行时会产生高密度的废热,这些废热主要是由每一柜中的数个服务器所产生,因此若未能有效地进行散热,容易导致系统过热无法正常运行,因此对数据中心的服务器性能的稳定性、高速运算中的可靠度、资讯传送的安全性以及攸关整体成本的能源损耗,由此可知服务器系统的相依性与复杂性日益增加。
根据美国2014年数据中心使用电力占比[1],能源损耗中有40%用于散热服务器所产生的热量,因此减少冷却系统的能耗成为近年来非常重要的研究,除了可以更有效率的使用能源之外,还能大幅度减少能源成本。而这也显示数据中心在未来势必要在服务器性能上的需求以及减缓能源成本两者之中取得平衡。
研究方法
1.深度强化学习
本研究采用的是深度强化学习中的深度确定性策略梯度演算法,该演算法基于马可夫决策过程,透过环境与代理人不断反覆的互动,并将每一次的互动记录下来存入资料库中,累积一定数量的资料量后,便随机批量抽取资料库中的资料去进行训练。而在演算法模型训练过程中含有两个神经网络,分别为目标和评估神经网络,评估神经网络在每次的损失梯度会更新一次参数,而目标神经网络则是在每次的计算中仅会缓慢的更新,相对于评估神经网络,可将其视为一个固定的参考点,帮助评估神经网络在计算中能够更稳定的收敛。最后则是去更新actor神经网络参数,借此方法去优化actor神经网络,帮助代理人在不同情况下找到一个合适的操作点作为决策。
而代理人与环境互动过程中,为使代理人了解系统内部的状况,因此需要透过一些指标参数使代理人认识目前服务器内的情况,因此这边主要分为三大类作为指标,分别为热源特征、环境与内部配置,以及风扇配置,这三个组合中都有数个参数指标作为观测特征值的参考,而在本研究中代表动作值的为风扇当前转速的工作周期作为输出动作。
代理人与环境经过一次互动后会产生一个奖励值,该值为根据互动结果给予奖励评估动作的优劣,同时也作为训练critic神经网络的重要参考依据,进而影响代理人最终行为方向。因此为了有效进行散热控制,本研究中影响散热量的鳍片效率和热传面积在散热设计中已被固定,后续的控制上无法改变;而热传系数则受到风扇所带动的流量影响,且从风扇定律可得知,风扇转速为影响系统功耗的重要因素,同时也是影响能耗的最大指标;最后则是有效温度差会受风扇转速的影响,而本研究中须将热源温度控制在正常运作范围内,避免元件过热损毁前提下提升服务器的节能空间,藉由奖励值给予代理人评估动作。
2.服务器暂态环境模拟
图1为市面上的服务器,可以看到服务器的配置复杂且空间狭小,因此本研究对服务器热传模型做了简化,首先假设服务器为单一入出口的通道,且没有因外部流场造成的额外压差,在此条件下,风扇静压等于通道总压降,并忽略强制对流的发展流影响因素,且散热器的冷却行为仅依靠其入口正面面积范围流入的空气进行冷却,忽略周围旁通道的冷却效应,最后则是将其流入的空气在通过散热器的过程不会外泄至周围的旁通道。
除了上述几点假设,亦对服务器内的热源分布规律进行简化,假设服务器内的热源模组分布按照流动方向区分出不同列,每列串联形成上下游,下游入口会继承上游的出口流体性质;同列之间散热器并排形成多个并联的通道关系。藉由上述的散热器分布假设,服务器内的空间切割成多个假想的通道,而在单一流道内只能存在一个散热器,且散热器无法完全占据流道截面,来形成旁通现象的几何配置。而在忽略流道边侧轮廓的差异下,此几何模型可近似为Jonsson[2]的研究模型,因此以其压降与纽森数经验式来描述散热器性能。
初步结果
目前已完成初步的统御控制模型,而在本研究中模型所适用的1U服务器环境配置参数范围如下表1所示,图表1则是后续进行模拟服务器的环境参数及配置示意图,各编号区块为一个热源模组,其中包含发热源及散热器,图2则是模拟所采用的风扇性能。
针对传统开关控制方法与演算法控制结果去进行比较。图2及图3的模拟结果可以发现,虽然这两种方法皆能有效地去控制温度,传统控制方法的能耗为演算法控制的109%,而演算法控制能够将最大热源温度控制在其上限附近,以最大有效热传温差进行散热,尽可能减少使用风扇来散热,由此可发现藉由演算法来进行控制,有效帮助达到较大的节能成效。
虽然透过演算法的控制已能有效提升节能效果,但对于节能的成效还有更进步的空间,因此在延续前一次的架构,改变风扇的控制方法来比较温度的控制和节能的效果。图4为每次只改变一个风扇去进行控制结果,在一开始较无法能马上回馈给温度,但在后期对温度的控制来说是较稳定,动荡幅度较平稳;图5则为将风扇分为数个区域,而每一个区域里有数个风扇,每次改变的风扇以区为单位,对于温度的控制来说是较为即时,但同时因为一次改变较多的风扇,对整体流量的影响也会增加,温度产生较剧烈的震荡,其节能的效果则是相对较差的结果。
结论
藉由大数据的资料库去进行模型训练,有效帮助我们减少设计服务器配置的时间成本,且也能够根据不同的工作状态去给予较合适的动作,降低服务器在散热上的能耗。而从目前的研究结果显示,透过演算法能够帮助我们控制热源的温度,避免过热现象的发生,且能以最大有效温差去进行散热,再搭配风扇去进一步的散热,减少风扇的能耗使用率,提升整体系统的节能空间;后续将持续进行智能控制的优化,并扩充至机柜与机房的应用。
本文标题:AI 用于1U服务器多热源散热风扇节能可行性研究
本文链接:https://www.blueocean-china.net/faq3/718.html [版权声明]除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。