运维管理与运维体系

本文探讨了运维管理,包括ITIL框架下的服务请求、变更管理和故障管理。重点介绍了BCM-BCP-DRP在故障处理中的角色,以及运维规划中的标准化和自动化。目标是确保业务的高可用性、可扩展性和降本增效。内容涵盖了CMDB、LDAP、监控平台、备份恢复、云平台等多个方面,并讨论了系统的可用性标准——X个9的含义和成本考量。

运维管理:

ITIL:

人:服务请求一线服务台,二线架构,三线应用

变更管理,通知与checklist

配置管理

事件管理

故障管理:

BCM-BCP-DRP-运维管理之故障管理——故障的分类与处理流程

问题管理

DEVOPS

cicd,代码开发

SRE

目标:

支撑业务

高可用

可扩展

降本增效

高性能

人,事,关系,结构,流程,管控,验收,节点

运维实施:

运维规划之标准化与自动化 

事:

1,cmdb资产配置管理

2,LDAP内网服务系统统一登陆,SSO,openldap

3,邮箱

4,内网,VPN,跳板机,堡垒机

5,DNS

6,桌面,打印机,投影仪,会议室,office,window,桌面软件

7,wiki

8,jira  项目管理,bug管理

9,服务树

10,统一监控报警平台,统一日志平台

11,工单平台

12,OA平台

13,备份恢复

14,机器设备采购

15,代码托管

16,防火墙

17,中间件,ng,redis,数据库,lb

18,发布平台,devops,ci,cd

19,云平台,iaas,paas,saas,容器,k8s

push通知平台(短信,邮箱,飞书,钉钉,微信)
自动化测试平台
压测平台
混沌工程平台
网关
dbms
配置管理平台
mq,datalink,es,hbase,Hadoop 等
定时任务
服务注册中心
maven仓库
npm仓库
flutter仓库
镜像仓库
数仓系统 BI 平台 报表平台
产品原型系统

密码管理 keepass

可用性:  几个9

在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量其可靠性的标准——X个9,这个X是代表数字3~5。X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。

  • 3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。

  • 4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。

  • 5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。

那么X个9里的X只代表数字3~5,为什么没有1~2,也没有大于6的呢?我们接着往下计算:

  • 1个9:(1-90%)*365=36.5天

  • 2个9:(1-99%)*365=3.65天

  • 6个9:(1-99.9999%)*365*24*60*60=31秒

可以看到1个9和、2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天,这种级别的可靠性或许还不配使用“可靠性”这个词;而6个9则表示一年内业务中断时间最多是31秒,那么这个级别的可靠性并非实现不了,而是要做到从“5个9” 到“6个9”的可靠性提升的话,后者需要付出比前者几倍的成本。

可用度A

9的个数

年停机时间(分钟)

适用产品

0.999

三个9

500

电脑或服务器

0.9999

四个9

50

企业级设备

0.99999

五个9

5

一般电信级设备

0.999999

六个9

0.5

更高要求电信级设备

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值