上篇文章《运维&测试人员必读 | 微服务架构下应用灰度部署策略》中与大家分享了运维测试人员如何通过蓝绿部署、金丝雀释出、流量映象等三种主流灰度策略去进行平滑的版本升级与释出。然而,再好的策略也不是万能的,并不意味着百分百成功,因此部署后的工作负载监控告警必不可少。
与传统的监控告警相比,微服务的监控告警面临更多调整:
由于应用会被拆分成多个微服务,导致监控资料的爆炸增长,运维人员无法快速处理和展示这些监控资料。
微服务之间的呼叫关系,导致出现问题时,故障排查很难。
如何通过一个统一的监控系统纳管所有的需求。
KubeSphere® 提供节点和工作负载级别的告警策略,普通使用者可以在专案中设定工作负载级别的告警策略。
今天将通过建立一个工作负载级别的告警策略并发送邮件通知作为示例,与大家分享如何设定工作负载级别的告警策略、新增告警规则、通知规则等操作及实践。
第一步:新增告警策略
以专案普通使用者 project-regular 登入 KubeSphere®,进入示例专案 demo-namespace,选择 “监控告警”→“告警策略”,点选 “新增策略”。
第二步:填写基本资讯
在弹窗中,参考如下提示填写基本资讯,完成后点选 “下一步”。
名称:为告警策略起一个简洁明了的名称,便于使用者浏览和搜寻,比如 alert-demo;
别名:帮助您更好的区分资源,并支援中文名称,比如告警策略示例;
描述资讯:简单介绍该告警策略。

第三步:选择监控目标
监控目标支援部署、有状态副本集、守护程序集三种工作负载,这里选择部署,选择 reviews-v1 和 details-v1 作为监控目标,然后点选 “下一步”。
第四步:新增告警规则
点选 “新增规则”,本示例以设定内存用量作为告警指标,监控周期为 1 分钟/周期,选择连续 2 次,内存用量的阈值> 20 MiB,级别为重要告警,设定的规则如截图所示:
说明:工作负载支援的告警规则如下:
CPU 用量;
内存用量 (包含快取);
内存用量;
网络:网络传送资料速率、网络接收资料速率;
工作负载指标:部署副本不可用率、有状态副本集副本不可用率、守护程序集不可用率 (工作负载的副本不可用率:比如对 Nginx 的 部署设定 5 个副本后正常执行的副本状态是 5/5, 如果部署不可用率设定了大于等于 20%,那么只要当副本执行状态为 4/5 的时刻就会发送告警)
完成后点选 “储存”,然后点选 “下一步”。
第五步:设定通知规则
1、通知有效时间可以设定传送通知邮件的时间范围,例如 09:00 ~ 19:00,通知渠道目前仅支援邮箱,在通知列表中输入需要通知的成员邮箱。
2、重复规则设定的是告警通知的传送周期和重发频度,如果告警一直未解决,相隔一定的时间将会重复传送告警。
针对不同级别的告警也可以设定不同的重复规则,由于上一步设定的告警级别是重要告警,因此选择重要告警的规则为每 5 分钟警告一次,最多重发 3 次。参考如下截图设定通知规则:
3、点选 “建立”,可以看到示例告警策略建立成功。
说明:告警的等待时间 = 检测周期 x 连续次数。例如检测周期为1 分钟/周期,连续次数为 2 次,那么需要等待 2 分钟。
第六步:检视告警策略
告警策略建立成功后,点选进入 alert-demo 告警策略的详情页,检视告警规则当前的状态和详细资讯,包括监控目标、通知规则和告警历史等。
左侧点选 “更多操作” → “更改状态”,支援启用或停用告警策略。
文章回顾:
《运维&测试人员必读 | 微服务架构下应用灰度部署策略》
-FIN-
7 月 25 日, 秉承科技前沿与企业实践并重的 CIC 大会再度来袭,为大家奉上一场科技盛宴。依旧硬核依旧资讯过载,干货满满,绝对让你不虚此行。点选阅读原文或长按识别下面二维码,即刻报名!






























