APP下载

IBM大型机的固件bug导致存储阵列出现故障:美国纳税日瘫痪11个小时

消息来源:baojiabao.com 作者: 发布时间:2024-05-21

报价宝综合消息IBM大型机的固件bug导致存储阵列出现故障:美国纳税日瘫痪11个小时

秘密的IBM脚本原本可防止美国纳税日持续11个小时的故障!两次机会本可以避开大型机驱动器阵列的bug,可惜都错过了。

2018年4月美国纳税日故障归因于IBM磁盘阵列出现缺陷,本来有两次是可以避免的,第一次使用更新颖的微码包,第二次使用秘密的IBM脚本。

在2018纳税年的最后一个申报日4月17日,网上纳税申报系统瘫痪了11个小时,美国国税局(IRS)不得不将申报期延长了一天。

纳税申报系统基于大型机,使用几个高可用性磁盘阵列,按照企业存储服务(ESS)合同的条款规定,优利系统是主承包商,IBM是次承包商。

据美国政府本月发布的一份报告显示,其中一个磁盘阵列因缓存溢出而出现“热启动”(又叫暖开机)后出现了死锁状况,在美国东部标准时间(EST)02:24向IRS的管理人员发出警报,并在4月17日02:57 EST向IBM发出了call-home警报消息。

令人惊讶的是,它被归类为“严重级别3”警报,理应在下一个工作日结束前作出响应。

到03:30 EST,IRS的更多系统受到了影响;后来受影响的系统越来越多,让IRS苦不堪言,到07:45 EST共有59个系统中招,09:45 EST宣布“重大故障”。13:40 EST开发出了一个补救脚本,有限的纳税申报工作于15:00开始,17:00申报工作完全恢复如初。

实际上,IBM在9个月前的2017年6月就发现了问题根源的固件bug,并于2017年11月7日向公众发布了微码修复程序微码包88.24.6.0。

为什么IRS没有打补丁?

从这份报告来看,没有哪一方的工作是到位的。

IRS信息技术部门的技术人员每月都与主承包商优利系统和次承包商IBM碰头开会,讨论IRS大型机的最新微码包。但是据报告显示,优利系统建议不该在2018年纳税年申报期间安装88.24.6.0,因为该微码包还没有经过足够的测试。

这不无理由,优利系统显然有一项“非正式”政策:要求微码包在安装到IRS的设备之前已“在生产环境中运行了450个机器周(注:机器周是指代码运行的周数乘以安装代码的机器数量。)”

IRS同意使用之前的微码包88.23.20.0,该版本被认为“更稳定”。

然而,在那次会议后一个月即2018年1月,即IRS故障前四个月,另一个IBM客户遇到了同样的bug。IBM开发并部署了修复该bug的预防性脚本。但蓝色巨人没有将此事告知IRS或优利系统。

单一故障点

报告还谈到了另外几点,这几点使IRS和承包商的一些IT决策看起来不够到位。首先,被归为一级存储环境的IRS纳税申报系统居然没有自动故障切换或内置冗余机制,目前是单一故障点。这种情况现正在修复中。

其次,承包商(优利系统)在故障那天没有达到几个服务级别目标(SLO):

报告建议IRS应将每月一次的微码包会议正式确定下来(11月份那次会议没有关于所作决定的会议纪要或文件记载),向企业存储服务承包商优利系统寻求赔偿,并且对其合同进行调整。

总而言之,纳税日故障是一起令人遗憾的事故:人为错误、不够到位的程序以及被系统的单一故障点所伤害。

故障报告全文:





2018-09-27 01:31:00

相关文章