运维管理:
ITIL:
人:服务请求一线服务台,二线架构,三线应用
变更管理,通知与checklist
配置管理
事件管理
故障管理:
BCM-BCP-DRP-运维管理之故障管理——故障的分类与处理流程
问题管理
DEVOPS
cicd,代码开发
SRE
目标:
支撑业务
高可用
可扩展
降本增效
高性能
人,事,关系,结构,流程,管控,验收,节点
运维实施:
运维规划之标准化与自动化
事:
1,cmdb资产配置管理
2,LDAP内网服务系统统一登陆,SSO,openldap
3,邮箱
4,内网,VPN,跳板机,堡垒机
5,DNS
6,桌面,打印机,投影仪,会议室,office,window,桌面软件
7,wiki
8,jira 项目管理,bug管理
9,服务树
10,统一监控报警平台,统一日志平台
11,工单平台
12,OA平台
13,备份恢复
14,机器设备采购
15,代码托管
16,防火墙
17,中间件,ng,redis,数据库,lb
18,发布平台,devops,ci,cd
19,云平台,iaas,paas,saas,容器,k8s
push通知平台(短信,邮箱,飞书,钉钉,微信)
自动化测试平台
压测平台
混沌工程平台
网关
dbms
配置管理平台
mq,datalink,es,hbase,Hadoop 等
定时任务
服务注册中心
maven仓库
npm仓库
flutter仓库
镜像仓库
数仓系统 BI 平台 报表平台
产品原型系统
密码管理 keepass
可用性: 几个9
在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量其可靠性的标准——X个9,这个X是代表数字3~5。X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。
-
3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
-
4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
-
5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。
那么X个9里的X只代表数字3~5,为什么没有1~2,也没有大于6的呢?我们接着往下计算:
-
1个9:(1-90%)*365=36.5天
-
2个9:(1-99%)*365=3.65天
-
6个9:(1-99.9999%)*365*24*60*60=31秒
可以看到1个9和、2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天,这种级别的可靠性或许还不配使用“可靠性”这个词;而6个9则表示一年内业务中断时间最多是31秒,那么这个级别的可靠性并非实现不了,而是要做到从“5个9” 到“6个9”的可靠性提升的话,后者需要付出比前者几倍的成本。
| 可用度A | 9的个数 | 年停机时间(分钟) | 适用产品 |
| 0.999 | 三个9 | 500 | 电脑或服务器 |
| 0.9999 | 四个9 | 50 | 企业级设备 |
| 0.99999 | 五个9 | 5 | 一般电信级设备 |
| 0.999999 | 六个9 | 0.5 | 更高要求电信级设备 |
本文探讨了运维管理,包括ITIL框架下的服务请求、变更管理和故障管理。重点介绍了BCM-BCP-DRP在故障处理中的角色,以及运维规划中的标准化和自动化。目标是确保业务的高可用性、可扩展性和降本增效。内容涵盖了CMDB、LDAP、监控平台、备份恢复、云平台等多个方面,并讨论了系统的可用性标准——X个9的含义和成本考量。

553

被折叠的 条评论
为什么被折叠?



