APP下载

【第一线机房IT专家实战经验】IT机房停电因应教战守则大公开

消息来源:baojiabao.com 作者: 发布时间:2024-04-25

报价宝综合消息【第一线机房IT专家实战经验】IT机房停电因应教战守则大公开
图片来源: 

iThome

台湾8月15日下午4点50分左右,发生了20年以来最大规模的全台大停电,全国高达668万户受影响,遍及全台17个县市,台电也紧急实施分区轮流停电来因应,甚至如彰化、高雄等部分地区还遇到两波或以上停电。对位在停电区的企业而言,如何确保机房维运成了IT一大挑战,甚至还得面对多次停电危机的考验。

机房停电时紧急应变是什么?IT人员该如何应对多次停电危机?复电后的检查及复原作业程序又是什么?我们也请教了在机房设计及工程规划拥有相当丰富经验的台湾世曦资讯系统部副理张智钦,亲自传授他多年站在第一线的紧急应变对策。

815大停电的机房危机:轮流停电成UPS最大挑战

张智钦强调:“这次全台大停电和以前格外不同”,第一个考验是分区轮流停电,第二是每次停电时间长达50分钟。

因为需要较长的恢复作业时间,在电力供应不足之前,台电采取了分区轮流停电措施来限电,每次停电时间长达50分钟。实施轮流停电的地区,包括了电费账单上记载为A、B两组的用电用户,共668万户。这群停电对象在分成三组,轮流停电,第一组237万户,第二组195万户,第三组则有236万户。采取交替停电的作法,停电顺序是第一组、第二组、第三组,若还没修复,则再回到第一组用电户停电。

因此,在这段限电期间,下午没有发生停电的区域,晚上可能反而因为轮流供电而会遇上停电。甚至已经停电后来恢复的企业,还可能会遇到下一次的停电。例如高雄市有些地区就直到晚上9点左右,共实施了4轮停电,因此,第一组用电户就得面临2次停电,5点多一次,9点多则是第二次,第一组用户中间恢复供电的时间间隔只有100分钟。

若是机房刚好设在此区域的企业,就会面临两次停电的考验,甚至台电维修作业若不顺利,延后供电时间,企业恐怕更得面临3次以上的停电风险,所幸,晚上近10点开始恢复供电。“这是大部分企业IT以前很少会遇到的停电情况。”张智钦说。

机房常用UPS设备预设只够撑15分钟

企业机房停电时紧急应变措施,通常最先想到的就是靠UPS不断电系统和临时发电机来供电。不过张智钦表示,一般企业机房常用规格的UPS设备,通常设计成可允许提供15分钟的紧急供电时间,这段关键保命的供电时间,对于没有发电机的企业IT来说,如果遇到的只有一次性停电的话,UPS电力足以来得及完成关机程序,“但是当停电次数不只一次时,只有15分钟电力,到底有没有办法支撑到两次停电需要的关机作业,就不一定了。”他说。

张智钦也以这次台电分区轮流限电来说明,当企业机房的资讯系统重新开机和关机各自需要15分钟时,一旦恢复市电后,IT人员如果急于马上要让资讯系统重启,这时UPS可供给电量早已所剩不多(可能不到5分钟或更短)时,如果马上又停电,要关机时间就会来不及,甚至“最坏的情况,就是资讯系统才开到一半,马上又要关机,这时,很多资讯系统可能就会出现问题。”张智钦提醒,这是IT人员在UPS设计和程序上必须要特别注意的,也是许多企业IT会疏于考虑到的部分。

恢复市电第一件事,应优先让UPS持续充电

企业机房对外供电突然断电时该如何应变?张智钦指出,在UPS持续运转可供电力时间内,企业IT人员第一件要执行的事,就是先以正常程序将所有主机关闭,待供电稳定时再将主机开启。“若无法预期何时会有下一次停电,或估算所需轮电最少一次以上时,IT人员应优先让UPS充电(至少充电到可支撑到下次断电时系统正常的开关机)”,张智钦提醒,若UPS已没有足够的电力供电,千万不要贸然径行开机,否则隔没多久又遇到停电时,就容易会发生UPS电池电量不够用,而没有足够时间,来不及将系统正常关闭。

万一真的遇到UPS电力不够用,IT人员来不及将资讯系统关掉时,张智钦表示,恢复市电后,仍必须等待UPS先充电,才能开始检测可能受影响的设备。他特别提醒,这时候千万不要急着马上将设备开启做检测,“因为部分设备可能已经因为不正常关机而产生异常,例如硬盘受损等,要是复电后,IT人员马上赶着检测设备时,又遇到停电时,恐怕造成的损害,只会更加严重。”

至于如果是常见、可预期的预告停电时,张智钦则建议,在市电还没切断前,就可先提前以正常程序将所有主机关闭,而不需要耗用UPS的电力,只有在真正需要时才将UPS投入。

图片来源_台湾世曦

考虑到多次停电的风险,当停电发生时,IT人员可依据机房UPS设备上显示的剩余电量及待充电时间,来决定要不要先充电,以便隔没多久再次停电时,还有充裕的时间可以开完机再关机。

复电后的系统重启步骤,网络优先,资讯系统其次

复电后系统的重启作业程序,张智钦则建议,应优先检测网络设备,先确认对内、对外网络都恢复正常后,接着才检查资讯系统有无异常(如硬盘是否故障、重要资料有无遗失等)。他也说明,与其他资讯系统相比,网络设备通常因为停电重启故障发生的情况较低,所以IT人员在重启设备时,可以先开启网络设备,再依各企业SOP,逐一将资讯系统开机。另外,检测过程中,万一遇到硬件故障的情况,也应立即联系委外或维护厂商,尽快派人来协助处理。

要对抗无法预期停电,UPS电池容量最好能撑30分钟

企业要通过无预期停电,甚至是多次停电的考验,UPS电池容量多少才够用?张智钦的建议是,最好可以设计到供电能撑上30分钟,以便于预留有足够的电力,让IT人员有充裕的时间开完机再关机。

即使是已经于机房设置独立发电机的中、大型企业,张智钦也建议,将电池可供电力使用的时间提高。他解释,因为停电发生时,难保不会发生事前无法预料的状况,例如发电机无法自行启动时,得改用人工的方式,由负责的IT值班人员到达现场将发电机手动开启,这段时间完全得仰赖UPS来支撑。“若UPS没有足够的电力,来不及撑到手动开启的时间,就算事前已准备好发电机供电,也没办法真正派得上用场。”

若是企业IT预算有限,无法针对机房设备提供一次全面性的UPS供电保护时,又该怎么办?张智钦表示,则可退一步,先针对重要的关键性系统,如ERP等,另外搭配采用额外供电保护的作法,例如双回路供电保护等,以便于当共用UPS电力不足时,还有另一个备用UPS能继续接手供电,以减少重要设备因不正常关机而故障的风险。

图片来源_iThome

台湾世曦资讯系统部副理张智钦表示,若企业IT预算有限,无法针对机房供电提供全面性保护时,则可针对少数关键性系统,另搭配采用额外供电保护的作法,例如双回路供电等。

Windows Update没做,会成为延迟关机消耗UPS电力的凶手

张智钦还提到,另一个与资讯系统关机程序息息相关,但很多IT主管都常会忽略的问题,就是没有定期完成机房所有系统的Windows Update更新。他进一步说明,这些没有按时更新Windows系统的资讯设备,通常会排定设备下次重启时进行更新,“若是没停电时还好,一旦遇到机房突然断电,当下就只能靠UPS供电支撑时,这时IT人员要关闭资讯设备,就可能会发生Windows Update下载更新完毕后,才能关完机的情况。”所以张智钦建议,企业IT平时就要养成定期完成Windows Update更新的习惯,以避免遇到无预警停电时,还需要耗费等待系统更新的时间,UPS撑不住时就可能会导致无法正常关机。

事前要做好充足演练准备,而不是临阵磨枪

当然只有在发生紧急停电时,IT人员才想到要应对已经来不及,张智钦强调,平时就得事前做好充足演练,像是针对发电机组,必须定期进行有载和无载测试的演练作业,“我们的作法是,每季定期都会有一次无载测试演练,且每年有载测试最少一次”,以确保发电机能在停电时,可以真正派得上用场。

另外,针对企业机房内的UPS电池使用,张智钦表示,最好是定期检测,或是按时更换服役已久的电池,他也建议,理想是3年可以更换一次电池,这是因为电池使用寿命有限,一旦电池太久没换,以致于没办法在停电时提供可靠的电力来源供电,造成的后果就是,资讯系统因为不正常停机发生故障的风险大幅升高。

虽然台湾世曦主要机房并不设在这次停电的主要限电区域内,所以并没有遇到轮流停电的情况。

不过张智钦表示,在当初设计或规划机房时,就已经事先预留设置UPS和独立发电机组的空间,并将各种可能遇到的断电情况,加入设计UPS和发电机的考虑环节,像是将UPS供电设计成至少可以提供到45分钟,且机房临时供电的发电机系统也与大楼分开独立一套,还备有自己的储油槽,即使是发生无预警停电,或分区轮流限电的情况,也可以马上投入。

张智钦还表示,平时管理机房维运时,他们还会依造不同资讯设备,针对UPS系统及电源监控管理的PDU设备来分群组,可以做到停机开机的全程自动化,而不需要人力介入。“我们规划开机的顺序是,先开启目录服务系统,之后才是重开数据库,以及重启其他应用程序。”张智钦表示,当停电发生时,UPS可供电力下降到达一定程度后,可透过系统自动化的方式,依据原先设定好的关机程序,依序将不同设备自动关闭,或者是等待电力恢复之后,每间隔一段时间,才分批将设备自动重新启动,以避免一次重启全部设备时,可能会导致瞬间电力负载过高的情况。 

图片来源_台湾世曦

机房设备开关机也能做到全程自动化

要让机房设备能更快开关机,还可以根据不同资讯设备类型,将UPS及PDU设备分群,依序将设备自动关机和开机,如上图台湾世曦机房PDU设备的启动延迟设定画面显示,PDU在电力恢复分批重启设备时,每次间隔360秒。

IT机房停电因应教战守则

 事件危机 

● 突发性停电:815傍晚因大潭电厂发生供气中断而发生全台大停电,影响全台17县市共97个行政区。

● 计划性停电:晚上实施分区轮流供电,以停电编号A、B两组,共668万用电户受影响。每次断电50分钟。下午未遇停电者,晚上也可能纳入停电对象。高雄部分地区甚至面临2次停电(中间恢复供电100分钟。)(台电已预告下次停电是C、D两组)。

 紧急应变对策 

● 考虑多次停电风险,恢复供电期间应优先充电UPS,待电量足以支撑下次停电所需,才进行系统重开作业。

● 应先开启网络设备,确认网络恢复后,再依序检查资讯系统有无异常。

● 因UPS电力不足而不正常关机时,需等待市电恢复后优先充电UPS,电力足够后才开始检测设备灾情,切勿贸然开机检测,以免发生二次断电而让系统受损更深。

 平时因应建议 

● 因应多次停电,UPS电池容量最少要能支撑30分钟,才能应付紧急突发状况。

● 若预算不足以提供全面性UPS供电保护,应对少数关键性系统,提供双回路供电保护等,以降低不正常关机而故障的风险。

● Windows系统最好定期完成更新,避免停电后的关机作业,需等待更新而消耗UPS电力。

● 平时应事前做好停电演练,包括定期检测发电机组,按时更换老旧UPS电池等。

资料来源:余至浩,iThome整理,2017年8月

2018-01-13 06:25:00

相关文章