APP下载

云脑智慧平台:让IT运维更简单

消息来源:baojiabao.com 作者: 发布时间:2024-05-19

报价宝综合消息云脑智慧平台:让IT运维更简单

云脑,谐音“运”脑,是在IT运维工作中应用人工智能(AI)技术的新尝试。

如何真正实现资讯系统执行的高可用和高效能,始终是运维领域最重要的研究方向。近年来,智慧运维因其能够快速定位故障根因、预知容量风险并合理应对资源配置,使得引入智慧运维的呼声不断。云脑就是用来升级运维工作现状,解决企业资讯系统运维中存在的突出问题的。

运维的伤与痛

场景一:快速定位故障当故障发生时:集中报警带来的大批量报警讯息通过各种渠道汹涌而来,手机资讯不断刷屏,让人应接不暇,毫无招架之力。

此时此刻,你不得不从单条故障告警资讯入手,同时还要访问对应的服务器,搜寻执行日志,30分钟的故障有效定位和解决时限成了压在运维工程师心口的一块大石。随着限期的不断临近,心口的大石越发沉重,再加上业务方的紧盯和催促,眼前成百甚至上千个分散告警让你脑中一片空白,茫然失措。

运维工程师的内心是崩溃的:这种情况太糟糕了,我该怎么办?

场景二:预知容量风险业务部门开展活动的时机总是让人捉摸不透。只要愿意,他们可以随时随地通知资讯科技部门,可能是明天,也可能是下午,无论时间多紧,IT部门都必须做好保障工作,至于活动量级?对不起,业务部门无法提供。

运维团队接到需求的那一刻,会迅速按照保障SOP手册完成各项检查部署工作,而至于系统扩容后是否能够支撑住保障活动的要求,运维负责人也没有绝对底气,只能搏一把运气。在整个业务活动保障过程中,业务与技术双方都在祈祷:一切顺利皆大欢喜,支撑不住的话再完全的准备也变得毫无意义。

这种不踏实的感觉何时才能消失?提心吊胆的风险何时才能彻底消除?

云脑:化解运维的忧与愁

云脑的核心大“脑”就是AI。AIOps缘起于Gartner的定义,是Algorithmic IT Operations的缩写,意即智慧运维,就是让运维具备机器学习和算法能力。基于已有的运维资料(日志、监控资讯、应用资讯等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力和稳定性,降低IT成本,并提高企业的产品竞争力,是自动化运维的下一个阶段。

AIOps常见的应用场景包括质量保障、成本管理和效率提升等,太平洋保险与华为合作选择了“告警工单收敛”与“业务趋势预测”这两个需求场景。

基于AI的告警工单收敛——“里”工单收敛主要包括离线模型训练模组和线上工单收敛模组两部分。建模模组依次进行资料采集与预处理、特征选择和模型训练等过程,随后进入工单收敛阶段,完成包括工单分类、资讯提取、聚类和根因分析等处理过程。

近几年,华为公司内部一直在应用AI技术实现降本增效,已有广泛实践和成功案例,其中就涉及到智慧运维方面的实践,包括网络智慧运维和IT系统智慧运维等。因此,我们的算法选择过程充分借鉴了华为在AIOps上的成功经验,采用了LSTM、关联项挖掘、决策树和随机森林等机器学习和深度学习算法;同时,华为还基于开源算法完成了算法效能提升来提高模型生成速度,以及通过对算法本身的优化来提高模型的泛化能力和预测精度。

通过本专案的建模和验证显示,在不同业务系统报警资料中取得了减少工单量60%~80%的效果。目前告警工单收敛率总体超过70%,经运维工程师测评确认明细收敛结果正确率则超过90%。

基于AI的告警工单收敛——“表”云脑将脑中分析的结果以分析看板的形式呈现出来。拓扑架构上的各层报警通过云脑分析后,直接完成告警工单的收敛结果和溯源分析结果。一旦故障发生,云脑的介入使得整个分析过程变得异常高效,运维工程师在此基础上能够直达本源,快速通过自动化运维等平台联动处理,让以往复杂的分析过程变得简单。

AIOps实践之业务量预测——“里”用于预测研究的关键业务量包括太平洋保险2016~2017年寿险出单量、车险报案量、车险结案量、承保出单量和产寿险话务呼入量。主要建模算法选择了XGBoost,其是boosting类整合算法中的一种,在预测领域效果非常显著。

以2017年产险车险结案量资料为例,根据XGBoost算法生成基本模型后发现,该模型对春节、国庆、小长假和星期等模式的预测趋势基本正确,但强度不够,再根据历史资料建立星期模型、春节模型、国庆模型和小长假模型,根据这些模型对基础模型的输出进一步进行调整,结果显示,增强后的模型误差可减少50%左右。

AIOps实践之业务量预测——“表”业务趋势预测也通过看板的形式向业务和技术方实施动态展现,提前预警,应对业务变化对IT资源支撑带来的冲击,在运维管理中建立预测看板已经成为未来运维工作发展的趋势。而从评判效果的预测误差(NRMSE,指预测误差值,即差异量/平均每日交易量,值越小差异越小,模型效果越好)来看,云脑已达到了可参考范围,其总体误差小于30%。

生产力转化

将告警收敛模型产品嵌入到目前的告警平台之后,通过与自动化运维平台连结,可实现告警同类合并、问题分析和关联分析等中间处理能力,无需再人工反复回顾历史告警资讯,即可快速定位根因溯源。引入后以年告警工单量70万计算,可降低人工工作量超过7人年,提升解决故障时效预计达到22%。

而趋势预测模型成为告警看板平台的新成员之后,有利于业务部门和IT部门联动协作,提前应对业务变化的容量预估,同时建立系统执行资料档案,而且其扩充套件应用的效果将更加广阔。

两个场景需求通过云脑整体提供模型管理平台,提供线上和离线执行模型,内含结构化资料与非结构化资料处理、图片/文字等识别,通过模型构建和训练调优验证上线,并与各需求方系统通过界面对接实现互动,除了目前的知识库以外,不久还将全新升级底层知识支撑,依靠知识图谱技术提供更高效、更准确的分析结果,其中知识图谱的建设会采用华为提供的图引擎产品,以提供高效能知识图谱关系的储存、多跳查询和关系分析能力。

行业复用及推广前景

云脑实际交付形态提供看板:视觉化图表将复杂处理过程及资料变得一目了然,正确表达资料的意义,让资料变成故事,让人快速读懂并定位问题。按照需求揭示细节,洞察背后原因,提供决策能力。

提供模型:通过分析应用场景,可引入场景资料、训练确定算法方案、建立提供模型。对资料进行埋点、清洗、储存以及特征选择。对资料中包含的无效资讯进行过滤,减少不确定性,提升算法能达到的上限,从资料中挖掘资讯能力,不断衡量模型“聪明度”,持续验证、持续训练、反复迭代,直到符合预设的要求。

提供引擎:让业务人员轻松高效地根据使用场景进行实时、准实时的决策模型/规则配置,实现在实时流资料驱动下,基于海量资料进行成千上万个决策模型/规则的计算任务,满足高并发、低延迟的应用场景需求。具备可程式设计、可扩充套件、高相容、高能效和高弹性的特点。

提供界面:可根据实际系统需要提供规范界面,对接提供分析推理服务,实现多平台连结,更快速、更便捷。

云脑应用场景主要适用的行业内需求场景:问题缺陷收敛、资源使用预测、预测使用者行为定制保险产品、成本(理赔)预测,以及保险关联反欺诈等。

主要适用的行业外需求场景:海量资讯收敛、物流预测、网站流量预测、销售量预测、保险关联反欺诈,以及人流量预测等。

面向远方,温暖未来

云脑从应用场景出发,关注客户的本质需求,解决使用者的运维痛点。客户需要的是顺利稳定的业务执行和平滑顺畅的使用体验。云脑可以帮助使用者快速定位故障点、掌握故障的原因,并第一时间迅速解决问题,实现故障过程无感化。

Gartner相关报告预测,AIOps的全球部署率将从2017年的10%增加到2020年的50%,其应用行业除互联网以外,还包括高效能运算、电信、金融、电力、物联网、医疗、航空航天、军用装置和网络等领域。

也许目前整个运维领域还处于探索阶段,甚至更多公司才刚刚起步,仍在观望,但智慧化没有局外人,在智慧化的程序中,你的位置在哪里?

2019-12-19 15:53:00

相关文章