APP下载

企业机房无预警停电的紧急应变之道,第一线机房IT专家实战经验大公开

消息来源:baojiabao.com 作者: 发布时间:2024-05-14

报价宝综合消息企业机房无预警停电的紧急应变之道,第一线机房IT专家实战经验大公开
图片来源: 

台湾世曦工程顾问公司

台湾上周发生20年以来最大规模的815全台大停电,台湾不少大型及中小型企业的主要机房设置地点,都在这波受影响的停电区域。记者也查证主要金融、电信及科技业者,所幸,多数企业机房或资讯系统,并没有受到太大影响。然而,面对突如其来的无预警断电,企业机房的紧急应变措施是什么?IT人员又该怎么应对?复电后的检查及复原的作业程序或步骤又是什么?我们也请教了在机房设计及工程规划拥有丰富经验的台湾世曦资讯系统部副理张智钦,亲自传授他多年站第一线的紧急应变之道。

台电分区轮流停电,企业机房恐陷多次轮停的断电危机

张智钦表示,这次台电全台大跳电遇到的情况,和以前很不一样,除了是无预警断电外,因为修复电力时间较长,没办法一次全面供电,所以还采取分区轮流停电的措施。如果企业IT主要机房地点刚好设在轮流停电区的话,整晚就可能停到1轮以上。这是大部分企业IT以前很少会遇到的停电情况。

台电无预警停电时,企业机房的紧急应变措施,通常最先想到的紧急发电来源,就是UPS不断电系统和靠临时的发电机供电。不过张智钦表示,一般企业机房常用规格的UPS设备,通常设计成可提供15分钟的紧急供电时间,这段关键保命的供电时间,对于没有发电机的企业IT来说,如果只是遇到一次性的短暂停电,UPS电力通常还可以撑得住,“但当停电次数不只一次时,只有15分钟到底有没有办法支撑到两次的停电,就不一定了。”他说。

张智钦也以这次分区轮流限电为例,假如一家企业机房的资讯系统重新开机和关机,各自需要15分钟的时间,在台电第一次停电时,UPS先自动投入运转,等到恢复市电后,IT人员如果急于马上要让资讯系统重启,这时UPS剩于可供给的电量已经非常少(可能不到5分钟或更短)时,马上又停电,要关机时间就会来不及,甚至“最坏的情况,就是资讯系统才开到一半,马上又要关机,这时,很多资讯系统可能就会出现问题,这是最应该要避免的。”张智钦提醒,这是IT人员在UPS设计和程序上必须要特别注意,也是许多企业IT会疏于考虑的部分。

张智钦建议,企业机房UPS设备的电池容量,最好是可以设计到能支撑30分钟以上,以便于预留有足够的电力,让IT人员有充裕的时间开完机再关机。

面对无法预期的断电,UPS电池容量设计最少要能够支撑30分钟

企业机房UPS电池容量要设计多少才够用,张智钦的建议是,最好可以设计到能够支撑30分钟以上,以便于预留有足够的电力,让IT人员有充裕的时间开完机再关机。即使是已经于机房设置独立发电机的中、大型企业,他也建议最好将电池供电时间提高到30分钟,他解释,这是因为,停电发生时,难保不会发生类似发电机无法自行启动的时候,这时要改用人工的方式,由负责的IT值班人员到达现场将发电机手动开启,这段时间也要靠UPS来支撑。“若UPS没有足够的电力,可能就没办法撑到将发电机重启。”

若企业IT预算有限,而无法针对所有设备提供一次全面性的UPS供电保护,张智钦表示,则可退一步针对重要的资讯设备,来提供额外供电保护,像是可以采取双回路供电保护的作法,在主要共用UPS之外,另针对重要系统所在的机柜配置专属的UPS,以便在共用UPS电力不够用时,还有另一个备用的UPS能继续接手供电,确保重要设备可以继续正常运作。

待恢复电力之后,应优先让UPS充电,切勿贸然径行开机

企业机房对外供电突然断电时该如何应变,张智钦指出,在UPS持续运转可供电力时间内,第一件要做的事,就是先以正常程序将所有主机关闭,待供电稳定时再将主机开启。若无法预期何时会有下一次停电,或估算所需轮电最少一次以上时,张智钦建议,待恢复电力后,IT人员应优先让UPS充电(至少充电到可支撑到下次断电时系统正常的开关机),若UPS没有足够的电力,就不要贸然径行开机,否则隔没多久又遇到断电时,就容易会发生UPS电池电量不够用,而没有足够时间,来不及将系统正常关闭。

至于如果是比较常见、可预期的停电时,张智钦则建议,在市电还没切断前,就可先提前以正常程序将所有主机关闭,而不需要动用到UPS,只有在真正需要时才将UPS投入。

须定期完成Windows update更新,避免关机等待

张智钦还提到,另一个与资讯系统关机程序息息相关,但很多IT主管都常会忽略的问题,就是没有定期完成所有的Windows update更新。他进一步说明,这些没有按时更新Windows系统的资讯设备,通常会排定在设备下次重启时进行更新,若是没停电时还好,一旦遇到机房突然断电,当下就只能靠UPS供电支撑时,这时IT人员要关闭资讯设备,就可能会遇到要求须等待Windows update下载更新完毕后,才能关完机的情况。

张智钦建议,企业IT平时就要养成定期完成Windows update更新的习惯,以避免遇到无预警停电时,还需要耗费等待系统更新的时间,UPS撑不住时就可能会导致无法正常关机。

复电后的设备重启程序,网络优先,接下才是资讯系统

市电复电再将UPS充至可供下次用电之后,接下来该如何依序复原设备。张智钦建议,在复原程序的作法上,IT人员应优先检测网络设备,先确认对内、对外网络都恢复正常后,接下来才是检查资讯系统的状况有无异常(如硬盘是否故障、重要资料有无遗失等..)。他也说明,与其他资讯系统相比,网络设备因停电重启故障发生的情况较低,所以可以先将网络设备开启,再来才是依各企业SOP,来逐一将资讯系统开机。另外,检测过程中,若有遇到硬件故障的情况,则可赶紧与委外或维护厂商联系,马上派人来协助处理。

如果不幸UPS撑不住,来不及将系统正常关机该怎么办?

张智钦也表示,若是不幸遇到UPS撑不住,来不及将系统正常关机时,恢复市电后的第一件事,还是一样先等待UPS充电,再来才是开始检测设备。他特别提醒,这时候千万不要急着马上将设备开启做检测,因为这时,部分设备可能已经因为不正常关机而产生问题,例如硬盘受损等,“要是复电后,IT人员马上赶着做设备检测,万一很不幸又遇到停电时,恐怕造成的损害,只会更加严重。”

事前要有充足演练准备,而不是临阵磨枪

只有当发生停电时,才想到要应对已经来不及,张智钦强调,事前也要有充足的演练,像是针对发电机组,必须定期进行有载和无载测试,“我们的作法是每季定期都会有一次无载测试演练,且每年有载测试最少一次”,以确保发电机能在停电时,可以真正派得上用场。

另外针对企业机房内的UPS电池使用,张智钦表示,最好是定期检测,或是按时更换服役已久的电池,他也建议,理想是3年可以更换一次电池,他解释,这是因为电池使用寿命有限,一旦电池太久没换,以致于没办法在停电时提供可靠的电力来源供电,造成的后果就是,资讯系统因为不正常停机发生故障的风险大幅升高。

虽然台湾世曦主要机房,并不设在这次台电停电的主要地区,所以并没有遇到轮流限电的情况,不过张智钦也传授他们的机房设计思维。

张智钦表示,在当初设计或规划机房时,他们就已经事先预留设置UPS和独立发电机组的空间,并将各种可能遇到的断电情况,加入设计UPS和发电机的考虑环节,像是将UPS供电设计成至少可以提供到45分钟,且机房临时供电的发电机系统也与大楼分开独立一套,还备有自己的储油槽,即使是发生无预警停电,或分区轮流限电的情况,也可以马上投入。

张智钦还表示,他们平时还会针对UPS及电源监控管理的PDU设备,依不同资讯设备来分群组,以便于在停电发生时,可透过系统自动化的方式,依据原先设定好的群组分类,依序将不同设备自动关闭,或待电力恢复之后,将设备自动重新启动,可以做到停机开机的全程自动化,而不需要人力介入。

 

上图为台湾世曦机房PDU设备的启动延迟设定画面,可以根据不同资讯设备设立群组,并采取不同的延迟启动时间,以便于在市电恢复之后,能依据原先设定好的群组分类,自动将不同设备依序启动。

 

 

2018-01-13 11:25:00

相关文章