APP下载

Google超节能机房如何让冷却用电再省40%

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息Google超节能机房如何让冷却用电再省40%
图片来源: 

Google

近来Google公布今年第二季资料中心的用电数据,他们旗下所有资料中心的耗电指标PUE值(Power Usage Effectiveness)过去12个月的平均值为1.12,这一季的PUE值更只有1.11,比平均值更低,也意味着更加省电。

根据国际机房认证组织Uptime在2014年的调查,全球资料中心的平均PUE值为1.7,但Google资料中心远远比全球水准,还来得省电许多,除了机房硬件设施的特殊设计之外,另一个近2年才曝光的关键省电作法,就是用深度学习来找出冷却用电的优化关键。

日前,Google更是运用了AlphaGo开发公司DeepMind的机器学习技术,无须改变机房设计,只靠软件动态调整,就能让冷却设备整体耗电减少40%的成效,Google补充,即使在不同规模的能源消耗环境,这项技术也有能有帮助。

Google过去10年一直想要找出更好的机房节能作法,靠软件或算法来优化维运正是其中一项研发重点。Google在2014年初花了数亿美元买下DeepMind公司后,也尝试将DeepMind的机器学习技术,引进自家资料中心管理。DeepMind在一篇部落格文章中,揭露了优化机房管理的三大挑战和Google的对策。

在资料中心用电中,最大宗是冷却降温的耗电。Google一座资料中心动辄有数千台,甚至上万台服务器,会产生大量的热能,为了让服务器持续运作,必须靠冷却装置来消除热能,保持一定范围的温度,不过,这些冷却设备大多是大型的机电设备,像是抽风机、冷水机和冷却塔等,Deepmind表示,在资料中心这样的高度变动环境,很难准确地操作这些机电设备来降温。

要精细地操作这些大型设备是一件非常复杂的工作,再加上机房环境的变数和设备操作方式,并非有一套明确的关连,而是一种非线性关系,Deepmind解释,传统以数学函式为基础的预测方法和人类直觉判断,无法精准地找出设备与机房环境的对应关系。例如不只无法快速反应机房内部变化,甚至还要考虑来自外部的影响,像是多变的天气,开发人员不可能想出所有的规则,来配合每个维运操作场景。

再者,每个资料中心都有独特的架构和环境,传统的管理能源模型必须因应每个资料中心,设计出不同的模型,不能通用于其他资料中心,因此,为了解决这个问题,DeepMind两年前开始用机器学习技术,开发智能系统,能了解每个资料中心与环境的相互关系(Interactions),让资料中心的运作更有效率。

在过去一年来,DeepMind研究团队与Google资料中心的团队合作,利用深度学习和深度学习算法,先来建立一个可以模拟Google资料中心耗电变化的模型,作为后续优化用电效能的参考框架。

Google近来公布今年第二季资料中心的用电数据,过去12个月的衡量资料中心机房用电指标PUE值为1.12,Google在过去19季都稳定地维持这样出色的成绩,而本季的PUE则是1.11,相比去年的1.12有微幅的下降。(图片来源/Google)

Google资料中心如何聪明管理用电

为了达到改善资料中心的能源效率的目标,DeepMind希望能建立一个可以预测PUE值(Power Usage Effectiveness)变化的深度学习模型要。PUE值是经常用来衡量资料中心节能省电的指标,计算的方式是以“资料中心的总用电量”除以“资讯中心内IT设备的总用电量”,PUE值越低,代表机房空调冷却所需电力就会更少。

Google在一座资料中心内设置了上千个感测器,收集过去环境的历史数据,像是温度、能量、抽水机速度、凝固点等,DeepMind将这些资料作为训练这个PUE预测模型的输入资料,并以真实PUE值作为对照预测结果的标签。

这些资料包括了19种资料中心环境资讯,例如冷却机抽水马达和每一台服务器的用电量,或像是室外环境资讯如相对湿度、风速、风向等,还有从各个环控、电力、机电设备和感测器上取得的第一手原始数据,经过汇整处理后,作为预测模型的训练资料。

档案的汇入和汇出、数据过滤、计算原始变数等资料前处理的工作,DeepMind都是用Python 2.7,搭配资料科学计算相关套件Numpy 1.7.0和Scipy 0.12.0,之后再用Matlab R2010a来训练模型,以及后续的处理分析工作。

DeepMind训练了2个不同组合的深度学习模型,来预测资料中心一小时后的温度和压力变化。有了这套预测系统后,就可以用来模拟,不同建议维运作法对PUE值的影响,进而找出最能降低资料中心耗电的维运操作方式。这些维运操作例如像是加快资料中心内某一批风扇的转速,或调高特定一台冷却机的制冷温度等。

透过预测模型,找出可以降低PUE值的最佳操控方式后,Google进一步建立一个可以自动控制资料中心内环控设备、冷却设备的系统,来自动套用哪些来自预测模型找出来的推荐作法。

简单来说,Google利用真实资料中心环控数据和服务器运作资讯,建立了一个全资料中心的PUE值预测模型,可以准确预测到95%以上的资料中心PUE变化。接着尝试各种不同的环控设备调整、风扇、冷却机,甚至是服务器内应用系统运作的调整方式,来找出哪一种调整组合,可以节省更多耗电,来优化PUE值,最后,再透过自动化程式,自动将最佳维运操作设定,套用到实际的机房环控设备上来执行。

Google也实际在旗下一座资料中心使用这套机器学习控制的维运系统,结果发现,相较于Google原本的维运管理方式,一旦开启了这套DeepMind机器学习维运系统,可以减少40%的冷却用电,或相当整座资料中心的整体PUE也进一步再减少了15%,比过去任何一次的PUE值都更低。

因为该套利用机器学习管理资料中心维运的系统,并非是一套专用于特定资料中心,或是只能用来调校PUE值的模型,而更是一个可以运用在不同资料中心环境和复杂维运变项的通用架构,因此,Google还计划未来几个月内,扩大应用到全球其他资料中心,甚至能运用到其他产业的工厂维运应用,例如改善电厂能源转换效率(Power Plant Conversion Efficiency),减少半导体制程上的用电和用水量。

Google在旗下一座资料中心实测,启用DeepMind机器学习模型来动态调整冷却机制后,减少了冷却设备的耗电多达4成,也让整体资料中心的PUE值还能再降低近15%。(图片来源/DeepMind)

目前的挑战是缺乏特定环境状况足够的真实数据

建立深度学习需要大量的数据,若是训练样本的数据品质不佳,或是数量不足,建立出来的模型容易不准确,DeepMind目前面临的挑战即是因为有些环境情况缺乏足够的真实数据,就无法训练出对应的预测模型,因此,收集到足够且正确的资料中环境数据是非常重要的。

Google表示,从智能手机助理、影像辨识到翻译,机器学习技术已经帮助人类许多生活上的事,不过,机器学习技术还可以处理非常具有挑战性的问题,就像是能源消耗。

即使能源使管理上,Google已经在去年有突破性的成果,但是Google表示,未来还是会持续研究和改进。

 

Google机房省电5作法

花了10年以上的时间,Google研究出如何提升资料中心的用电效率,也累积了不少管理机房的作法,其中有5项作法,也值得企业参考,就算无法全盘照作,也可以参考其中一、二项作法或精神,来优化自家机房的省电效率。

 作法1  确实测量PUE值

若是没有量测机房的PUE值,就无法准确地管理用电,因此,企业必须追踪资料中心用电量,一般产业也常用PUE值来作为衡量用电标准。

为了要准确地测量PUE,Google建议至少1秒就测量1次,更重要的是,要整年不间断地测量,因为气候会随着季节改变,而影响PUE。

由于资料中心外部的气温也会影响用电,越寒冷的地区,所需要冷却的用电量越少,因此PUE值也会比较低,举例来说,根据Google针对每个园区的个别统计TTM PUE数据,最低的是在比利时,TTM PUE为1.09,本季最低PUE也是1.09,在比利时和芬兰。

Google计算PUE值的方式是全面地计算用电效能,所有的资料中心都一并统计,并非只计算采用最新、最好设备资料中心,且统计PUE值是续一整年不间断地测量,不是只在较寒冷的季节统计用电。

若使用产业中常用的标准来计算,Google机房可以交出更低的PUE值成绩,且采用效能最佳的资料中心来计算的话,PUE值甚至可以小于1.06,但是,为了更准确地衡量和优化资料中心的用电表现,而不是仅顾及到其中一部分,Google坚持采用更高的标准,将所有的电力消耗来源都纳入计算,而非只有照绿色网格PUE测量标准(Green Grid's PUE measurement standards)来计算。Google公布的每一季报告,都是涵盖资料中心所有用电后,才来计算资料中心的后续12个月(TTM)PUE值。

资料中心设备包含许多不同的冷却系统基础建设,也会因资料中心位处的环境气候而有所不同,季节型的气候模式也会影响PUE值,较寒冷的季节,PUE就会比较低,不过,透过这套深度学习系统,就连炎热且湿度高夏天,Google都能将PUE值维持在较低状态。

Google用上百个功率表来测量能源消耗,用冷却系统和IT设备上的不同功率表来追踪能源消耗,计算出正确的PUE。

 作法2  管理机房内部气流

空调管理在资料中心的运作中,扮演非常关键的角色,好的隔离机制可以将热气和冷空气的混合降到最低,避免冷热空气混合,进而减少冷却用电。

Google建议用挡板将服务器机柜上的空隙挡住,避免服务器产生的热气扩散,另外,Google也计算流体动力学(Computational Fluid Dynamics,CFD)相关数据,来建置热能模组,借由一些分析结果,可以协助企业了解资料中心设备的气流特征,有效地优化设备操作。

另外也要避免资料中心的冷热气流混合,因此,Google建议用挡板隔离服务器机柜上的缝隙,防止服务器后端的热通道与前端的冷通道混合,确保冷通道的冷空气不受热气影响,有助于减少冷却所需的总能量。

 作法3  提高自动调温器预设温度并分散热源

要节省资料中心的能源,最简单的方法之一就是,提高自动调温器的温度。为何一般企业多将资料中心的温度控制在华氏70度(大约摄氏21度),Google认为,这个答案一直是个谜,因为所有设备或服务器,都能在更高温度下运作,因此,Google资料中心的温控预设温度是调整到华氏80度(约摄氏26.67度)。

另外Google会建立资料中心的热分布模型,来标记出资料中心内部所有的可能热点(热源),并将热点平均分散,来避免局部高热,而需要耗费更多制冷的能源。甚至在设备或服务器进驻时,就考虑到热源集中效应,来分散摆设。

 作法4  善用免费冷却机制

Google建议可以用水来替代冷却器,大多数的资料中心都会用冷水机或是空调来降温,不过这样的方式,需耗费30%~70%的能源用量,Google采用水来冷却资料中心的温度,可以节省不少能源的消耗。

首先,Google在服务器机柜上客制了一套制冷机制称为Hot Huts,可以将热空气离开服务器前先暂时留住,避免热气直接释出到机房中,来影响整体机房温度。每一个Hot Huts顶端都有多个电扇,先透过水冷却系统来降温,再排进资料中心的环境中,就能让服务器接收到冷空气,降低机器本身的温度,形成良性循环。

接着,Google还善用蒸发的功能,冷却塔就跟人类的身体一样,即便外在的温度比体温还要高,蒸发能让人类保持一定的温度范围,热水从资料中心流到加速蒸发的冷却塔时,有些水就变成蒸气,风扇则会带走这些蒸气,最后冷却塔再将冷水送回资料中心。

除此之外,冷却水并非唯一免费的冷却方式,位于芬兰哈米纳的资料中心则是用海水来冷却机房,当初选择在该地设置资料中心,正是因为寒冷的气候条件,加上邻近海湾的地理位置,Google设计抽取海水设备的冷却系统,透过热能交换器将热送到海水中,这样的模式能够提供一整年的冷却需求,直到目前为止,该机房尚未装设任何一项冷却的机器。

 作法5  优化能源分配

Google指出,一般的服务器在从事真正的计算工作前,就已经浪费1/3的能源,服务器通常在交流电转直流电的电源供应器上,耗费了许多电量,之后电压调节器又需要耗费更多电力。

因此,建置客制化的高效能服务器,将服务器的功率损耗降至最小,并移除不必要的能源耗损,是非常重要的,另外也要确保服务器在等待执行指令期间,消耗最少的能源。若是企业最初因成本考量,选择低效能传统服务器,长期运作下来,将产生更多用电成本。

Google则是从2001年起,就一直研究如何设计出更有效率用电系统,经过多年的研究,Google目前采用效能高电源供应器、电压调节器等设备,确保能源真正用在电脑核心的计算工作上,根据Google估计,每年每台服务器大约省下超过500度(kWh)的用电量。

硬件部分,Google也只留下执行应用程序必须元件,将不必要的元件都移除,像是外部连接器或是显卡,另外也优化服务器风扇运行,将风扇转速控制在足够让机器维持可运行的温度即可。

2018-01-11 22:25:00

相关文章