APP下载

Cloud周报第100期:全球第三大代管服务商OVH云端机房大火,受损机房服务器预计要待22号才可重启

消息来源:baojiabao.com 作者: 发布时间:2026-02-21

报价宝综合消息Cloud周报第100期:全球第三大代管服务商OVH云端机房大火,受损机房服务器预计要待22号才可重启
图片来源: 

法国消防局SDIS

重点新闻(2020/03/11~2021/03/17)

  云端服务商OVH     云端机房大火     资料毁损   

全球第三大代管服务商OVH云端机房大火,受损机房服务器预计要待22号才可重启

欧洲最大规模云端服务供应商OVH,旗下在法国史特拉斯堡的一座百坪大资料中心,在当地时间3月10日凌晨,发生大火。猛烈火势在一夜间,不仅烧毁了起火点的单座5层楼高资料中心,还蔓延至邻近的一座OVH资料中心,造成部分机房损毁,甚至还迫使另两座资料中心须关闭服务器。根据英国网络安全业者Netcraft的监测数据资料,这场大火造成该日早上,全球OVH IP地址有超过18%没有回应,约有360万个网站停摆。像是法国庞毕度中心、加密货币交易所Deribit、法国-开放资料平台等,都受到影响。

经过连日抢修,OVH在灾后第6天,恢复了3座资料中心的电力,还有完成机房内外网络基础设施的部署。然而,有部分受大火损坏的系统,已确认没有备份,换句话说,有一些企业的资料将永久遗失。OVH预计要待22号才能重启机房的服务器,确认能稳定运作后,才会逐步恢复服务。详细的起火原因仍尚待调查。(详全文)

  Azure      服务中断     金钥错误   

Azure AD需使用的金钥被意外移除,导致Teams、Office等服务中断

微软旗下Teams、Office及Dynamics等服务,在UTC时间3月15日晚间7点,发生服务中断状况,导致全球大规模用户无法登入使用服务。微软已公布了初步的调查结果,指出这些服务是因身份识别及存取管理服务Azure Active Directory(AD)故障,而造成用户无法登入。在正常的安全措施上,自动化系统会定期移除不再使用的金钥,但在过去几周,微软把一个应被移除的金钥标注为“保留”,以用来支援一个复杂的跨云端迁移,然而,该自动化系统却忽略了该金钥的保留状态,径自将它移除。所以,导致支援Azure AD使用OpenID或其它加密签章标准协定的金钥,在轮替时发生了错误。

在确认问题后,微软在同一天晚上9点左右,把金钥元资料还原至先前的状态,只是应用程序也必须重新还原元资料,同时更新其快取,而每个应用程序复原的速度不一,有些还必须强制更新快取。因此,一直到隔日早上9点37分,才完成此一程序。整起事件历经了14小时,才落幕。微软表示,Azure AD后端安全部署系统已在进行加强防护的工程,分为多阶段推展,对于移除金钥的保护预计于今年中完成。在加强防护工程全面完成后,将可预防本周与去年9月发生的Azure AD意外。(详全文)

  云端状态报告    多云策略     公有云   

2021年云端现况大调查:92%的大型企业采用多云策略,其中有8成采混合云架构

软件业者Flexera针对全球750名云端决策者及使用者展开调查,近日公布2021年云端状态报告。该调查发现超过1千名员工的大型企业中,有高达92%企业采用多云策略,其中有82%采用混合云、1成采用不同的公有云,而采单一公有云的企业占7%,采单一私有云占1%。公有云采用率前三名依序是:77%的AWS、73%的Azure,以及47%的Google Cloud。

年度投资金额方面,在公有云部分,31%企业规划投资超过1,200万美元,3成企业预计投资介于240万到1,200万美元之间,还有15%介于120万到240万元美元间。今年规划投资1,200万美元的企业数量,相较去年有16%,几乎成长了两倍。另外,在公有云的使用情境上,有5成企业已在公有云上执行工作负载,有46%已把资料存放在公有云上。对于上云所面临的难题,有51%认为是理解应用的相依性,例如厘清每个服务的程式、硬件与网络装置之间的关系,其次则是评估迁移本地应用程序的技术可行性,占了48%,还有44%认为很难评估本地部署与云端的成本差异。(详全文)

  GCP平台    支援方案     SRE   

Google锁定关键任务环境推出新支援顾问服务,可辅导企业云端环境导入Google SRE维运模式

Google云端近日推出全新客服支援服务,称为关键任务支援服务(Mission Critical Services,简称MCS),提供对环境要求最严苛的企业更高标准的支援,尽可能提高重要业务环境的稳定性。新支援服务是购买高级支援(Premium Support)服务方案的企业,可以额外加购的一个加值服务选项。Google表示,该服务的特别之处在于,建立在与他们自身支援GCP平台一样方法论的基础上,也就是过去20年来,自家SRE团队针对维运工作开发的一系列核心概念和方法。此外,不同于市场上许多由云端供应商全权负责关键任务支援的服务,MCS为一种咨询型产品。Google也会旁协助企业将环境调整适用SRE维运模式的环境。

更进一步,Google在企业部署MCS时,会从旁协助企业分步进行评估、补救和入门的过程,一步步将企业GCP环境的架构、控制、可观察性和衡量标准,采用与Google实际工作环境服务一样的运作标准。在最短时间内取得影响降低回应,并持续改良环境来预防无误中断情形。(详全文)

  AWS     储存服务     低成本等级   

AWS档案储存服务EFS新增低成本储存等级,费用比标准等级少47%

AWS档案储存服务Amazon EFS增加了较低成本储存等级One Zone,提供企业储存存取频率低,且不需要最高可用性和持久性的资料,比起Standard储存等级,使用One Zone储存等级,可降低47%的储存成本。跟Standard储存等级的11个9耐用性相比, One Zone储存等级只有3个9的可用性SLA,但仍具有与Standard储存等级相同的弹性、可扩展性和生命周期管理功能。AWS表示,One Zone储存等级适合用于开发、建置和测试工作负载环境,或是分析模拟、媒体转码等应用程序。

One Zone储存等级的所有文件系统,都会配置自动备份政策,使用AWS Backup来提供额外的资料保护措施,而且使用EFS控制台创建的文件系统,预设生命周期管理政策,可以自动地移动不常用的档案到One Zone-IA储存等级中,借由生命周期管理,不常存取的资料储存成本将会降低高达92%。AWS推出两个One Zone储存等级的价格,以北维吉尼亚地区为例,One Zone价格每月每GB为0.16美元,而针对更不频繁存取档案所设计的One Zone-Infrequent Access,每月每GB为0.0133美元。目前One Zone储存等级已在北维吉尼亚州、爱尔兰、米兰,还有亚太的东京、香港、新加坡等AWS地区上线。(详全文)

  Azure     硬件故障     机器学习    

微软揭露Azure硬件故障预测专案Narya,部署一年降低了26%VM中断事件

微软近日揭露预测和缓解Azure硬件故障状况的专案Narya。2020年起,微软着手在云端营运中导入AI技术,在Azure中,部署端到端预测和故障缓解专案Narya,便是策略的一环。取自《魔戒》精灵三戒之一的火之戒之名Narya,该专案被赋予预测和缓解Azure主机故障的任务,能预测Azure可能发生故障的节点,并自动采取缓解措施解决潜在故障风险,还能透过资料收集,改进预测和缓解模型。Narya现在已经成为Azure智慧基础设施的关键部分。

微软提到,Narya已经透过通用机器学习和预测服务系统Resource Central平台,部署到全球的Azure运算丛集中,已被用于生产环境一年多,降低26%的VM中断事件,使Azure整体工作负载更加稳定。Narya在采取缓解措施时,会考虑多种缓解的可能办法,而不是仅针对有风险的预测,提供单一缓和措施。Narya还会使用A/B测试框架和增强学习框架来找出最佳应对措施。微软仍在持续改进Narya,除了要让Narya能够处理更多种类的硬件故障之外,也希望能整合更多的缓解措施,回应广泛的故障预测事件。(详全文)

图片来源/法国消防局SDIS、Flexera、AWS、微软

  更多Cloud动态  

1. 微软针对HPC推出新VM,使用最新推出的AMD EPYC 7003系列处理器(详全文)

2. 甲骨文发布上季财报,Fusion Cloud ERP收入成长3成(详全文)

资料来源:iThome整理,2021年3月

2021-03-20 11:50:00

相关文章