预警报警规则编写原则

本文探讨了预警报警规则在复杂系统设计中的重要性,强调选择预警对象和编写规则需谨慎,以避免虚假报警和重要信息遗漏。报警规则应基于故障症状而非原因,从用户侧出发,提供清晰的报警信息和处理流程。操作手册作为报警系统关键部分,用于解释报警含义和处理方法。

《预警报警规则编写原则》

2020-11-12

  1. 序言
  • 在对一个复杂系统设计时,对系统的工作状态进行监视,并且对未来可能发生的故障进行预测,是运维模块的必不可少的功能。尤其是,挑选预警对象与编写预警规则,对系统/运维工程师分析和设计的功力提出了很高的要求。

  • 假如此部分工作没有做好,系统上线后,会使运维工作出现一些不尽如人意的情况:如虚假报警过多,导致真正的故障报警被运维人员忽视;或是报警或预警模块对重要故障不能及时或提前告知,运维人员不及时处理;或是大量/海量的报警消息出现,导致真正重要的信息被淹没在报警消息的噪声中。

  • 因此,了解清楚报警规则的设计原则和常见的规范是极其重要的。

  1. 报警规则的监测对象
  • 系统中的功能:指业务系统完成的业务需求。
  • 系统的响应速度:其实就一句话,天下武功唯快不破。
  • 系统中的数据:指各类业务数据的完整性,持久性,以及新鲜度。
  1. 报警规则的设计原则
  • 报警消息接收的对象是运维管理员,是人(Human/Person),而不是一个自动化处理的程序(Program)或是脚本(Scripts)。
  • 报警规则的设计应是基于故障表现出来的症状(Symptom),而不是基于故障可能产生的原因(Cause)。这就好象医院的医生首先要对病人做各种检查,得到身体的各项生化指标或影像等客观参数,然后再去探究原因;而不是一上来先判断病因。
  • 报警规则应尽可能从用户侧(User Side)/远端(Spout)发出报警。使用客户端指标做监测,这样的规则会聚合许多的后端响应,比较全面,同时更加健壮,不会因基础设施改变而频繁地更改。
  1. 报警信息的展示
  • 文本:报警信
本课程以实战演练为主,快速帮助学习者在极短时间内,从0到1搭建Prometheus + grafana + Alertmanager 监控预警平台,同时对Linux 操作系统、MySQL、Nginx、Zookeeper、Elasticsearch 完成监控预警。本课程由浅到深循序渐进,从安装部署软件,到软件配置调优,再扩展到企业级自定义开发,帮助学习者快速掌握监控预警体系知识。本课程配套安装部署文档、安装包、配置文件、运维脚本,真正实现开箱即用。本课程特点简单、实用、知识点全面、可操作性强、上手容易等特点。本课程重点内容安装部署Prometheus+Grafana+Alertmanager安装部署Linux操作系统、MySQL、Nginx、Zookeeper、Elasticsearch 相关Prometheus Exporter Prometheus预警规则配置及自定义开发Grafana监控面板配置及自定义开发自定义Web hook处理监控预警Springboot应用自定义埋点数据监控Prometheus 监控组件Prometheus是一个开源的系统监控和告警系统,通常会搭配Grafana、Alertmanager 实现监控可视化及预警通知,prometheus支持多种exporter采集数据,还支持通过pushgateway进行数据上报,Prometheus在性能上可支撑上万台规模的集群。1)Prometheus Server: 用于采集和存储度量指标数据,存储于本地TSDB时间序列数据库,默认是pull主动拉取模式,也支持push模式。主要包括Retrieval、Storage、PromQL等模块,Retrieval可以理解为定时器采集数据,Storage模块负责存储采集到的度量指标数据,PromQL负责查询计算度量指标。2)Prometheus Exporters: 每个软件都有其配套的Exporter,Exporter的作用是将软件内部运行的监控数据,整合成Prometheus 能够处理的数据格式,然后Prometheus 采用定时pull拉取的方式,调用Exporter暴露出来的接口URL,采集metrics度量指标数据并存储到TSDB。3)Alertmanager: Prometheus server 端拉取得到度量指标后,会计算度量指标数据,是否触发相关预警规则,如果达到预警规则条件,则生成 alerts 告警信息,将告警信息推送给ALertmanager,Alertmanager 收到告警信息进一步去重、分组,然后将告警信息通知出去,常见的通知方式有:电子邮件,微信,钉钉, slack等。4)Grafana:可视化监控面板展示服务,比如展示Linux 操作系统监控面板、MySQL 监控面板、Nginx监控面板、Elasticsearch 监控面板等。5)pushgateway: 相当于度量指标收集器网关,各jobs上报监控数据至pushgatewy,由prometheus server定时统一从pushgateway拉取数据。 课程大纲第一节 Prometheus架构及组件介绍第二节 Prometheus快速安装部署第三节 Exporter快速安装部署node_exporter (Linux操作系统 )安装启动mysqld_exporter 安装启动nginx-prometheus-exporter安装启动zookeeper-exporter安装启动elasticSearch_exporter安装启动配置Prometheus采集exporter 度量指标数据第四节 Grafana快速安装部署第五节 Grafana监控配置第六节 Alertmanager安装部署第七节 预警规则配置及常见告警处理Prometheus通用预警规则配置Linux操作系统监控预警规则配置MySQL监控预警规则配置Nginx监控预警规则配置Zookeeper监控预警规则配置ElasticSearch监控预警规则配置其他软件监控预警规则配置应用监控预警规则配置第八节 快速开发自定义web hook处理预警第九节 如何快速开发Springboot应用自定义埋点监控接口调用量统计接口调用耗时统计第十节 附录-推荐学习资料汇总本课程最后附所有安装包、预警规则、grafana监控面板模板、springboot demo-admin源码、课件下载地址。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值