APP下载

不虚谈AIOps 你要的全面可实施方案都在这里了

消息来源:baojiabao.com 作者: 发布时间:2024-05-13

报价宝综合消息不虚谈AIOps 你要的全面可实施方案都在这里了

一个全球部署的商用云平台系统使用AIOps系统,对2000多个节点进行实时监控,可以平均提前两个小时预警系统异常;而某个电商企业引入AIOps后,能够对未来一段时间内的运营数值进行精准预测,生成动态基线来监控和告警,故障发现的准确率也可能会提升至80%或更高,极大提升企业的运营效率。

如果说最初的运维就是发现问题和解决问题,那么数字化的出现改变了IT运维的本质;它引入了围绕服务可用性、效能和敏捷性的新需求;但这些需求也对运维管理提出了更高的要求,否则可能导致服务质量的恶化、对业务需求的迟钝相应以及IT运营中的成本增加。

在这种情况下,智慧化运维AIOps成为了越来越多企业的选择。

下个趋势将是AIOps

现代IT运营的目标之一是深入了解IT系统的历史状态,并通过学习和分析,预判和调节整个IT平台的潜在未来状态。如IDC在一份《IT运营分析调查》的报告中所说,“53%的企业在今天将采用IT运营分析(ITOA)视为其整体云战略的关键任务”。

虽然自动化技术有助于应对一些数字化运营带来的新挑战,但大部分技术在产生大量资料的同时,却缺乏从大量系统生成的日志中处理、关联和挖掘洞察的能力;但是企业需要更具有前瞻性、可预测的智慧IT运营,从而有助于建立新的、敏捷的业务模型,并支援创新计划,从而保持企业的领先地位。

根据Gartner的分析预测,到2022年,所有大型企业中,40%的企业将使用AIOps工具,将大资料和机器学习功能结合起来,支援和部分取代现在5%以上的监控,服务台和自动化流程和任务,并且“客户对使用AIOps功能已经表现出越来越多的兴趣,应用大资料和机器学习来简化工单和CMDB流程、促进自动化。”

离不开的人工智能

典型的AIops落地场景包括异常检测、动态基线、根因分析、故障预测和应用效能监控等。简单来说,为了更好地支援业务,AIOps将人工智能引入了运维中的监控和故障分析领域,探索更有效稳定的系统执行效果。

比如面对大量元件构成的复杂系统,以及在系统经常面临变更,从而要求人工对监控设定不断进行调整的情况下,就可以通过历史资料的机器学习来动态预测资料的趋势,并通过大量的历史资料形成每个元件自身的行为模型,从而实现基于动态画像的系统异常检测和基于学习元件行为模型的异常主动预测。

此外,随着企业应用的大量微服务化,业务之间的呼叫以API的形式出现,传统的应用效能监控方式很难统一的反应出应用效能的实时情况;而且目前大量的系统扩缩容策略都是基于阈值(也就是一定的基线)设定的,很难及时根据实时状态进行调整;这时,通过AIOps,就可以实现“动态基线”的效果,基于历史资料,利用智慧算法深度学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警。

又或者,当业务运营问题需要转化为技术问题来解决时,通常面临系统故障问题定位困难的情况,而且在今天越来越复杂的分散式系统面前,需要考虑更多的系统关联性,而且往往一个故障的发生,可能涉及一连串的应用API呼叫,如果不能实现基于智慧的根因分析(RCA),快速完成故障定位及解决将会非常困难。

端到端的全面服务

想象一下,一个解决方案可以在问题出现之前实时乃至预先解决;这就是智慧化运维所蕴含的价值。

因此,越来越多的企业和组织开始重视并采用AIOps,通过认知与自动化相结合的运营平台,实现企业混合多云架构智慧运维的转型目标。

比如,某大型商业银行资料中心系统通过AIOps,能够检测包括Unix、Linux以及Windows在内的近千台服务器节点,提前14小时检测出应用节点出现资源消耗异常,并最终导致异常退出的故障;以及某个商业云平台能从1000多个节点中,快速过滤出30多个异常点,并根据置信度给予优先排序,帮助应用人员快速定位问题。

虽然AIOps是趋势,但由于AIOps涉及“历史资料管理”、“流资料管理”、“自动模式发现与预测”、“根本原因确定”、“内部部署交付”等多种功能需求,并需要熟悉不同行业的特定业务流程;迄今为止,很少有供应商能提供全面的AIOps平台。

与其他服务提供商不同,IBM基于自身在各行业的最佳实践经验,提供从设计、构建到管理解决方案的端到端专业服务,并以服务的方式进行快速交付,帮助客户降低运营成本。

IBM全球资讯科技服务部推出的智慧运维使用完全托管的IT分析解决方案,提供AIOps即服务的交付模式,该方案可提取企业IT运营资料,并采用预先构建的机器学习模型进行资料的统计、分析,提供深刻洞察及自动化服务。

2019-08-12 00:48:00

相关文章