运维管理与运维体系

最新推荐文章于 2026-01-12 16:23:40 发布

原创最新推荐文章于 2026-01-12 16:23:40 发布 · 1k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#运维 #java #分布式 #数据库 #大数据

本文探讨了运维管理，包括ITIL框架下的服务请求、变更管理和故障管理。重点介绍了BCM-BCP-DRP在故障处理中的角色，以及运维规划中的标准化和自动化。目标是确保业务的高可用性、可扩展性和降本增效。内容涵盖了CMDB、LDAP、监控平台、备份恢复、云平台等多个方面，并讨论了系统的可用性标准——X个9的含义和成本考量。

运维管理：

ITIL：

人：服务请求一线服务台，二线架构，三线应用

变更管理，通知与checklist

配置管理

事件管理

故障管理：

BCM-BCP-DRP-运维管理之故障管理——故障的分类与处理流程

问题管理

DEVOPS

cicd，代码开发

SRE

目标：

支撑业务

高可用

可扩展

降本增效

高性能

人，事，关系，结构，流程，管控，验收，节点

运维实施：

运维规划之标准化与自动化

事：

1，cmdb资产配置管理

2，LDAP内网服务系统统一登陆,SSO，openldap

3，邮箱

4，内网,VPN,跳板机，堡垒机

5，DNS

6，桌面，打印机，投影仪，会议室，office，window，桌面软件

7，wiki

8，jira 项目管理，bug管理

9，服务树

10，统一监控报警平台，统一日志平台

11，工单平台

12，OA平台

13，备份恢复

14，机器设备采购

15，代码托管

16，防火墙

17，中间件，ng，redis，数据库，lb

18，发布平台，devops，ci，cd

19，云平台，iaas，paas，saas，容器，k8s

push通知平台(短信，邮箱，飞书，钉钉，微信)
自动化测试平台
压测平台
混沌工程平台
网关
dbms
配置管理平台
mq，datalink，es，hbase，Hadoop 等
定时任务
服务注册中心
maven仓库
npm仓库
flutter仓库
镜像仓库
数仓系统  BI 平台  报表平台
产品原型系统

密码管理  keepass

可用性：几个9

在系统的高可靠性(也称为可用性，英文描述为HA，High Available)里有个衡量其可靠性的标准——X个9，这个X是代表数字3~5。X个9表示在系统1年时间的使用过程中，系统可以正常使用时间与总时间(1年)之比，我们通过下面的计算来感受下X个9在不同级别的可靠性差异。

3个9：(1-99.9%)*365*24=8.76小时，表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
4个9：(1-99.99%)*365*24=0.876小时=52.6分钟，表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
5个9：(1-99.999%)*365*24*60=5.26分钟，表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。

那么X个9里的X只代表数字3~5，为什么没有1~2，也没有大于6的呢？我们接着往下计算：

1个9：(1-90%)*365=36.5天
2个9：(1-99%)*365=3.65天
6个9：(1-99.9999%)*365*24*60*60=31秒

可以看到1个9和、2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天，这种级别的可靠性或许还不配使用“可靠性”这个词；而6个9则表示一年内业务中断时间最多是31秒，那么这个级别的可靠性并非实现不了，而是要做到从“5个9” 到“6个9”的可靠性提升的话，后者需要付出比前者几倍的成本。

可用度A	9的个数	年停机时间(分钟)	适用产品
0.999	三个9	500	电脑或服务器
0.9999	四个9	50	企业级设备
0.99999	五个9	5	一般电信级设备
0.999999	六个9	0.5	更高要求电信级设备