APP下载

【OVH云端机房失火,导致全球360万个网站停摆】深度剖析欧洲史上最严重机房火灾

消息来源:baojiabao.com 作者: 发布时间:2026-02-21

报价宝综合消息【OVH云端机房失火,导致全球360万个网站停摆】深度剖析欧洲史上最严重机房火灾

背景图片来源/法国消防局SDIS

欧洲最大规模的云端服务供应商OVHcloud(以下简称OVH),突然在当地时间3月10日凌晨爆发史上最严重的火灾,烧毁位于法国史特拉斯堡的一座5层楼高的百坪资料中心,惊人火势甚至一度向外蔓延,造成邻近同公司另一座资料中心部分机房损毁,还有另外两座被迫关闭。火势直到早上才控制住,所幸没有人员伤亡。

突如其来的暗夜大火,不只影响许多欧洲本地企业、-单位服务运作,一项OVH资料中心服务监测数据更显示,全球有半数OVH代管网站,高达360万个网站因而停摆,许多线上游戏平台、银行、电商及新闻网站大受影响,甚至因为这场大火,一些企业营运重要资料因此永久遗失。

这起机房大火事故带来的冲击,更让OVH近期的IPO计划大受影响,连该公司创办人Octave Klaba都沉痛说出:“这是该公司成立22年以来最惨的一天”。

更惨的是,资料中心灾后复原之路漫长,根据OVH预估,至少需经过两周才能开始重启资料中心服务器,逐步恢复服务,这段期间,原服务仅只能改由OVH在该地区以外其他资料中心接手。

这次机房火灾事件,不只是OVH成立有史以来最严重机房火灾事故,甚至是欧洲史上最大规模机房火灾重大事故。

为了对抗亚马逊、微软等全球云端巨头,身为欧洲最大、全球第3大代管服务商,OVH近几年积极扩大云端布局,像是2017年大举收购VMware的公有云业务,抢攻公有云市场,目前该公司旗下主要云端服务项目,除了公有云,服务更涵盖了裸机云、Web云,代管私有云。为了扩大云端运算与代管服务范围,OVH这些年持续在全球扩建资料中心据点,截至2020年底,该公司在全球4大洲拥有31座资料中心,一共部署多达40万台服务器,服务全球160万名客户。

在OVH资料中心发生火灾之后,根据英国网络安全业者Netcraft的侦测, 自3月10日凌晨2点13分起(中欧时间),OVH史特拉斯堡资料中心的服务器对外服务全部已中断,完全连不到。图片来源/Netcraft

火烧机房,OVH面临成立22年来最大一次服务中断

这次发生重大火灾事故的,是OVH位在法国的史特拉斯堡一座资料中心。该公司在法国设有17座资料中心据点,史特拉斯堡就占了其中4座(代号SBG1、SBG2 、SBG3、SBG4),其余资料中心则分布在巴黎、鲁贝,以及华沙与法兰克福等城市。

OVH上一次服务中断事故是在2017年,同样是发生在史特拉斯堡,当时因电力系统异常,造成该区资料中心设备停机,导致服务中断持续了一整天。后来分析事故原因有两个,一是OVH新设资料中心时,为加快速部署,并未与其他资料中心采用相同两条独立20kV高压馈线当作备援设计,导致其中一条电力线路出问题,无法切换到备援线路,二来,在架设电网时,采用两座资料中心共用同一电网线路架构的作法,也与OVH其他资料中心架设方式有所不同。

经过这起服务中断事故,也促使OVH后来重新改造电力系统,除了新增一套容量可达20MVA的独立电力配置当作备援,并且不再共用同一个电网线路,而让资料中心的电网能够彼此各自独立。OVH当时更计划将这4座资料中心彼此隔开,还要将其中SBG1与SBG4机房服务全部迁移到SBG3,不再继续使用。

过去,这起服务中断事故,是因为电力问题才出现状况,然而,后来一场资料中心大火,竟造成了OVH有史以来最大一次服务中断事故,至截稿前,持续长达一周时间仍未能恢复服务。这场大火得从3月10日这一天凌晨,开始说起。

火苗是从史特拉斯堡当地一座5层楼高的SBG2资料中心楼上一间机房窜出,机房维运人员收到火警通报立即赶往现场,后来发现现场火势已无法控制,于是先紧急疏散内部人员。紧接着,警消获报抵达现场,立即以莱因河的水架设水线进行灌救。在大规模投入现场救灾同时,警消同步封锁该基地及其周边四周出入,并紧急向电力公司要求对该区域进行断电处置。

由于现场火势持续燃烧,猛烈火势后来更从SBG2向隔壁紧邻的其余三座资料中心SBG1、SBG3、SBG4蔓延开来。经过彻夜抢救,直到早上5点左右,大火持续闷烧约5小时后,火势开始获得控制。

初步调查,因为这场大火,OVH一座资料中心全毁更波及其余3座,烧毁的是SBG2资料中心,虽然它的建筑面积不大,只有约百坪规模,但其采用高密度机房设计,最多能容纳约1万2千台服务器,后来在这场大火中,SBG2机房里的服务器几乎遭摧毁而无法使用,甚至连该公司架设于SBG2机房的邮件服务器都未能幸免。SBG1资料中心虽然没有SBG2损坏严重,但其机房一部分亦受到大火波及,12间机房有4间遭毁,SBG3与SBG4设备未受损,但也受牵连而被迫关闭。所幸经查没人伤亡。

一夜之间,全球360万个网站全面停摆

受到这起重大火灾事件的冲击,OVH大动作关闭史特拉斯堡4座资料中心,也使得欧洲许多用户服务大受影响,不少用户在OVH资料中心发生火灾第一时间纷纷上网抱怨自己放在该公司云端的主机或网站服务突然无法登入,甚至一些重要资料因此拿不回来,例如一家游戏开发商Facepunch,在这场大火中,所有通过OVH在其云端服务器上保存的线上游戏资料,如玩家存档等,都因此付之一炬,无法复原。

一夜之间,更有大量欧洲网站服务因此瘫痪,例如,法国著名艺术文化中心庞毕度中心、加密货币交易所Deribit、欧洲最大电子工程杂志EENews Europe,以及如data.gouv.fr-网站等。

根据英国网络安全业者Netcraft的监测数据显示,OVH资料中心发生大火的早上,全球有超过18%属于OVH的IP地址没有回应,约有360万个网站停摆。其中有88万个网站的顶级网域名称为.com,18.4万个为.fr,还有2.4万个为.uk,若以网站服务类型来看,涵盖了网络银行、电子邮件服务、新闻网站、电子商务网站,还有-机构网站。

事隔11小时之后,OVH发布第一次公告,首度说明这次机房失火事件,并展开后续服务影响的评估。同日更二度公告,除了更新灾后各资料中心受损情况,也提出3项优先目标,包括优先在Roubaix与Gravelines两地资料中心架设新服务器,以供受波及的用户使用,后来更新增三地,未来几周还要投入生产超过1.5万台的新服务器。其次,也将努力恢复SBG1、SBG3与SBG4的运作,以及持续评估这大火对于资料中心客户服务器的影响程度,以便找到最佳解决方案。

OVH也首次公开提到灾后对于该公司营运的冲击。目前在法国资料中心以及欧洲15座资料中心在内服务均已全面恢复运作,另外,基于Web提供的VOIP服务在法国当地亦没有受到影响。事件发生后的40小时左右,OVH开始向所有直接受影响的用户发送电子邮件说明其服务状态,并提供FAQ问答。更早之前,OVH还设置一个事件公告网站,供用户后续进度追踪。

火灾发生后的隔日,Octave Klaba在个人推特上发布一段8分钟影片,首次公布推测可能的失火原因。他表示,根据当地消防单位提供的资讯,初步推测导火线很可能是SBG2机房里的两台UPS不断电设备失火所造成,但详细起火的原因仍待查。他在影片中也向客户表达深切歉意,并承诺将尽快将灾后剩余3座资料中心重启,恢复服务。

虽然详细事故的原因,相关单位已展开调查,但从现代资料中心防火设计来看,机房隔间墙与管道间设计上,通常要能达到一段时间的防火时效,为何这次灾情那么惨重?

单从这4座资料中心外观来看,SBG1和4属于货柜型资料中心,后来启用的SBG 2、3则是采用OVH称之为塔型(Tower)的资料中心设计。台湾世曦资讯系统部副理张智钦就表示,这些资料中心都是属于简易型建筑物设计,目的是加快部署,因而采取较简易、低成本的建置方法,一般而言,这种非传统标准的资料中心或机房设计,较难以落实火灾防火机制,他认为,这是造成OVH资料中心火灾一发不可收拾的主因。

他也提到,以这种规模的资料中心而言,在大火发生之后,OVH紧急应变速度已经相当快,甚至火灾扑灭没多久,现场一部分网络作业已经开始恢复,加上所有服务器都是自己设计生产,有足够资源做调度,也让它复原速度加快。另外,对于后续灾情与处理进度公开也相当透明。

从这次OVH机房火灾事件,更加凸显出企业在云端服务采用不同区域互作备援的重要性,张智钦就认为,当不能有服务中断的情况,企业比较好的方式就是在不同区域互作备援,而不是将服务放在同一个区域不同资料中心,就像这次的情况,SBG2机房失火,隔壁SBG3、SBG4即使没有遭受波及,还是可能因为网络、电力中断而停摆,光是恢复就得花不少时间。

OVH在第四次公告也提出更具体的短期3个工作重点,第一优先完成网络与电力供给,以恢复SBG1、SBG3和SBG4服务运作;第二则要提供可替代的资料中心基础架构服务方案供受影响的用户使用,以及第三则是与客户共同落实DRP(灾难恢复计划)机制执行。并提到这段期间受影响的客户,将暂不收费。

举例来说,在机房灾后复原方面, OVH不仅成立临时办公室,还投入上百名人力,早一步展开灾后复原工作,并优先重建网络及电力基础架构。像在网络部分,OVH技术团队针对已受损的资料中心骨干网络进行抢修,对内也重新部署光纤能够与机房内部相连,甚至建置新的网络机房以恢复内部网络。

另在电力基础架构部分,OVH也陆续在3座资料中心重新架设20KV高压电缆线路,以及完成低压240V配置,来替资料中心稳定供电。

经过连日抢修,到灾后第6天,OVH在这3座资料中心已完成复电与内外网络基础设施部署,OVH表示,预计将等到22日重启机房服务器,确认能稳定运作后,才会逐步恢复原有服务。

3月10日

凌晨00:47(中欧时间)

OVH在法国史特拉斯堡的基地设有4座资料中心(代号SBG1、SBG2 、SBG3、SBG4),火苗是从一座5层楼高的SBG2资料中心楼上一间机房窜出,后来现场火势无法控制,内部人员紧急撤离。警消获报抵达现场,并架设水线进行灌救。图片来源/OVHcloud

凌晨2:54 消防车持续灌救

在投入现场救灾同时,警消同步封锁该基地及其周边四周出入,并要求电力公司先行对该区域进行断电。 图片来源/法国消防局SDIS

4:09 火势开始蔓延

火势开始蔓延到其他资料中心。由于火势持续燃烧,整栋SBG2已被火焰和浓烟笼罩,数十米高火焰,更向紧邻SBG1、SBG3、SBG4三座资料中心蔓延开来

5:30 现场火势得到控制

大火持续闷烧约5小时,火势开始获得控制。但SBG2整栋几乎完全毁损,亦损坏了SBG1资料中心一部分(12间机房中的4间遭毁),SBG3与SBG4虽然没有遭到大火波及,但也受牵连而关闭全部服务器。所幸经查没人伤亡,但基于安全考量这段期间仍禁止人员进入。图片来源/Google地图

11:00 OVH首度公开说明

OVH创办人Octave Klaba

第一次公告,OVH首度在官网公开说明这起SBG2机房失火事件,并展开后续服务影响的评估

21:00 二度公告,说明营运的冲击

同日二度公告,除了更新SBG各资料中心受损情况,也提出3项优先目标,包括灾后复原工作等,更首次公开提到灾后对于该公司营运的冲击

3月11日

15:30 向受影响客户发送邮件

事件发生后的40小时,OVH开始向所有直接受火灾影响的用户发送电子邮件说明其服务状态。并提供FAQ问答

16:40 可能失火原因曝光

首次公布推测可能的失火原因。火灾发生后事隔一天,OVH创办人Octave Klaba在个人推特上发布一段8分钟影片,透露根据当地消防单位提供的资讯,初步推测导火线很可能是SBG2机房里的两台UPS设备失火所造成,但详细起火的原因仍待查。图片来源/法国消防局SDIS

3月12日

14:00 灾后短期3个工作重点

第四次公告,OVH提出灾后短期3个工作重点,包括1、优先完成网络与电力供给,以恢复SBG1、SBG3和SBG4服务运作;2、提供可替代的资料中心基础架构服务方案供受影响的用户使用,以及3、与客户共同执行DRP(灾难恢复计划)机制

3月16日

经过连日抢修后,SBG1、SBG3和SBG4机房所有服务仍停摆,仅先完成复电与内外网络基础设施重新部署,预计接下来一周内重启服务器,确认能稳定运作后,才会逐步恢复原有服务。图片来源/OVHcloud

资料来源:iThome整理,2021年3月

2021-03-19 16:49:00

相关文章