APP下载

Azure现在能自动分析VM故障原因,助用户快速除错

消息来源:baojiabao.com 作者: 发布时间:2024-05-05

报价宝综合消息Azure现在能自动分析VM故障原因,助用户快速除错

微软现在让Azure用户可以了解虚拟机器发生原因的根本问题,借由使用新的根本原因分析(Root Cause Analysis,RCA)引擎,解析Azure平台设备和服务的遥测资料,经过关联和归因分析之后,对不同故障状况给出根本原因解释。

现有的Azure资源健康状态总览功能,可以协助用户诊断影响Azure服务的问题,该功能会提供当前和过去的运作状况,显示每个资源无法使用的时间,但是无法提供发生问题的潜在原因,而现在微软强化Azure资源健康状态总览功能,以提供用户更多有关于资源运作的状况,以及导致问题发生的背景资讯。

现在当虚拟机器发生可用性问题时,用户除了可以快速获得通知之外,当自动化根本原因分析(RCA)确定导致虚拟机器出现故障的Azure平台元件,用户便可查看调查细节。RCA引擎的原理和背后技术核心,源自于Azure资料总管(ADX),这是一个大规模日志遥测分析系统,经最佳化所提供的资料服务,Azure资料总管能够解析Azure平台设备与服务的数TB日志遥测资料,并且经过综合分析后,给出故障的详细资讯。

自动化根本原因分析有几个阶段,第一阶段是定义分析触发事件,RCA需要确认虚拟机器是不是在非预期的情况下重新启动,因此触发事件便是从启动状态变成关闭状态的转换,微软解释,在大多数情况下,利用平台遥测资料来辨识这些转换很简单,但是在部分类型的基础设施故障时,便会很困难,而且平台遥测可能会因为设备故障或是断电而失效。为了处理这类型的故障,微软必须使用其他类型的技术,像是资料丢失追踪,来作为虚拟机器运作状态转换的可能指标。

在确认触发事件之后,接下来便要进行相关性分析,Azure平台上的系统,包括主机或是储存等各部分,都有各自的遥测馈送,RCA引擎需要对这些遥测资料进行解析,并找出与虚拟机器触发事件的关联,透过了解可能导致虚拟机器故障的底层系统相依关系图,将所有相依系统的健康状态整合在一起,过滤时间相近的虚拟机器转换事件,来探索相关性。

在相关性分析结束后,输出会是一个资料集,来表示虚拟机器停机时间相关的平台遥测资料,以提供判断虚拟机器故障的可能原因。RCA引擎会根据这个资料集,应用归因规则来解释资讯,并将其转换成为用户能够理解的讯息。

最后一个阶段则是将根本原因发布到Azure资源健康状态总览,供用户查看故障的进一步资讯,微软提到,因为资讯流可能会因为各种资料延迟,而推延出现的时间,所以在这个过程可能会偶尔更新分析资讯,以反映更具体更细节的根本原因。

2021-08-04 02:44:00

相关文章