Azure资源监控与恢复全解析
1. 监控合规性
在实施合规性和治理规则后,关键在于监控这些规则,确保人员和 IT 系统遵守。Azure Policy 可展示策略状态,当不合规时会提供改进建议。Security Center 也有策略和合规性的详细信息及指标。
2. 额外监控主题
- 部署日志 :查看订阅内的部署情况,可在资源组的“Overview”页面的“Deployments”标题下查看失败和成功的部署数量,点击链接能获取详细信息。活动日志可显示所选时间段内所选上下文的所有操作,也可在订阅上下文中查看更广泛的操作情况。
- 标签和标签 :标签和标签为 Azure 产品、功能或软件应用生成的指标或日志提供了额外的可查询属性。例如,通过环境标签(生产、测试、开发)可识别 Azure 资源。标签有助于新手或不参与项目的人快速了解环境。标签还可设置数据敏感度级别或管理文档共享权限。
3. 恢复 Azure 资源
- 业务连续性和灾难恢复(BCDR)的重要性 :为避免业务 IT 数据或应用丢失,需有备份、冗余和灾难恢复计划。Azure 提供相关产品和功能帮助设计、测试、实施和维护 BCDR 解决方案。
- 什么是 BCDR :IT 系统中断影响业务运营时,需实施 BCDR 计划。首先要确定中断类型,通过监控定义激活计划的指标,执行计划可包括更改路由、使用 Azure Traffic Manager 或进行 DNS 更改,也可故障转移到不同区域的生产环境副本。执行故障转移后,需决定是在新环境运行还是恢复原生产环境。
- 业务连续性 :业务连续性不仅涉及 IT 连续性,还包括业务在中断时的运营方式。例如,当合作伙伴下单的互联网门户故障时,可增加客服中心人力手动接单。同时要确定业务连续性过程的持续时间,以便及时激活灾难恢复计划。
- 灾难恢复 :灾难恢复是 BCDR 计划的 IT 部分,当 IT 中断阈值被突破时执行。在云环境中,可合理成本配置灾难恢复环境,降低了成本障碍,但仍需制定、测试和维护计划。
4. Azure 恢复服务
- Azure Resource Graph :可确定当前在 Azure 平台上已配置和运行的资源。使用 Azure Resource Graph Explorer 执行 KUSTO 查询(KQL),也可用 Azure CLI 执行查询,如:
az graph query -q "Resources | where tags.Environment=~'Production' `
| project name, type, location"
确定所需资源后,决定哪些纳入 BCDR 计划,并了解其备份计划和位置。
-
Azure Backup
-
备份描述
:Azure Backup 用于备份 Azure VMs、Azure Files 和 SQL Server 虚拟机。备份 Azure VM 时,常见更新组件包括文件、文件夹、系统状态和应用数据。备份类型有全量备份、增量备份、差异备份和事务备份,不同类型适用于不同场景,需考虑存储成本和数据丢失风险。
-
Azure 上备份的工作原理
:Azure Backup 依赖多种 Azure 产品和服务。备份 Azure VM 或 SQL Server 虚拟机可使用 Azure Backup 扩展。Microsoft Azure Recovery Services(MARS)和 System Center Data Protection Manager(DPM)可用于将本地 VMs 备份到 Azure。也可使用 Azure Automation 脚本进行备份。
-
配置 Azure 备份的步骤(Exercise 9.3)
:
1. 登录 Azure 门户(portal.azure.com)。
2. 导航到 Azure 虚拟机,确保其运行,点击“Backup”链接,选择“Create New”,输入名称和资源组,点击“Create (or Edit) A New Policy”。
3. 输入策略名称,配置备份计划(频率、时间、时区),点击“OK”和“Enable Backup”。
-
备份存储和管理
:配置 Azure 备份时会创建 Azure Recovery Services Vault。备份仪表板可查看备份状态、数量和存储使用情况。备份数据存储在 Azure Blob 存储容器中,默认使用 GRS 冗余类型。备份数据在传输和存储时加密,可通过“Stop Backup”禁用备份,选择保留或删除备份数据。
-
备份其他产品
:Azure VMs 属于 IaaS,需自行管理备份;Azure App Services、Azure Functions、Azure SQL 和 Azure Cosmos DB 等 PaaS 服务会自动备份操作系统和应用配置。Azure App Services 和 Azure Functions 有备份和快照功能,可配置包含关联数据库的备份,备份数据存储在 Azure Blob 存储容器中。
-
Linux 与 Windows 备份
:不同操作系统的备份支持有所不同,如 MARS 仅支持 Windows 机器。Linux 备份需使用认可的版本,默认恢复点状态为 File-System Consistent,可配置以捕获应用一致的恢复点。Azure Backup 有一些默认限制,可通过联系 Microsoft 提高限制。
| 备份类型 | Azure 产品 | 描述 |
|---|---|---|
| 全量备份 | VM/SQL | 完整备份整个源 |
| 增量备份 | VM | 备份自上次备份以来的更改 |
| 差异备份 | SQL | 备份自上次备份以来的更改 |
| 事务备份 | SQL | 启用点时间恢复(PITR)的日志 |
graph LR
A[开始] --> B[选择要备份的服务器]
B --> C[确定是否备份服务器上的所有内容]
C --> D[选择备份类型]
D --> E[配置备份策略]
E --> F[执行备份]
F --> G[监控备份状态]
G --> H[存储和管理备份]
H --> I[结束]
5. Azure Site Recovery
- 功能概述 :Azure Site Recovery(ASR)可将资源从一个区域或位置移动到另一个区域或位置,不仅支持 Azure 托管的 VMs,还支持将本地数据中心的工作负载在发生故障时迁移到 Azure。之前已学习过其在不同场景下的应用,如将运行在 Hyper - V 或 VMware 上的 Windows 和 Linux VM 以及独立的非虚拟化服务器进行迁移等,现在重点关注其故障转移的实际执行。
-
操作步骤(Exercise 9.4)
:
- 登录 Azure 门户(portal.azure.com)。
- 导航到在 Exercise 9.3 中创建的 Recovery Services vault,点击“Site Recovery”导航菜单项,点击“Step 1: Replicate Application”。
- 在“Source”下拉列表中选择“Azure”,在“Source Location”下拉列表中选择源区域(如 (Europe) West Europe),在“Azure Virtual Machine Deployment Model”下拉列表中选择“Resource Manager”,选择源订阅和源资源组,点击“OK”。
- 勾选要恢复的 VM 或 VM 组,点击“OK”,在“Target location”下拉列表中选择目标区域(如 (Europe) North Europe),点击“Create Target Resources”,再点击“Enable replication”。
- 在 Site Recovery 配置部署过程中,关注“Step 2”关于管理恢复计划的内容。部署完成后,点击“Recover Plans (Site Recovery)”导航菜单项,点击“+ Recovery Plan”,输入名称,选择源区域和目标区域,选择“Resource Manager”,点击“Select Items”,勾选要添加到恢复计划的 VMs。
- 点击“OK”两次。恢复计划创建完成后,点击其省略号,从弹出菜单中选择“Test Failover”,从“Azure Virtual Network”下拉列表中选择要进行测试故障转移的 VNET,点击“OK”。
- 测试成功后,从弹出菜单中选择“Cleanup Test Failover”,再选择“Failover”,保留默认设置,点击“OK”。故障转移完成后,选择“Commit”并确认。
-
注意事项
:
- 只能故障转移到同一地理区域内的区域,例如不能从 North Europe (DB3) 的 VM 故障转移到 South Central US (SN1)。应根据实际场景选择合适的位置,若使用 Azure VMs 作为本地工作负载的灾难恢复,应选择离本地数据中心最近的 Azure 区域。
- 恢复计划是定义故障转移过程中源、目标和要故障转移项目的模板。实际场景中,Azure VMs 的数量和它们之间的关系更复杂,可通过“Customize”弹出菜单项根据特定需求定制恢复计划,以确保在 BCDR 场景中按正确顺序关闭、移动和启动工作负载。
- 一般不建议在不需要时实际执行故障转移,可先进行测试以确认故障转移可行。选择“Failover”后,需选择恢复点,包括“Latest (Lowest RPO)”、“Latest Processed (Low RTO)”和“Latest App - Consistent”。恢复点目标(RPO)和恢复时间目标(RTO)是重要指标,RPO 与备份计划有关,决定愿意丢失的数据量;RTO 关注尽快恢复 VMs 和其他服务,“Latest Processed (Low RTO)”是默认选项。选择恢复点时要谨慎,可使用测试故障转移功能确定最适合的选项,实际故障转移并提交后,无法更改恢复点。
| 恢复点类型 | 描述 |
|---|---|
| Latest (Lowest RPO) | 最低恢复点目标,可能丢失的数据量最少 |
| Latest Processed (Low RTO) | 低恢复时间目标,可尽快恢复服务 |
| Latest App - Consistent | 应用一致,备份各方面都成功,部署成功概率最大 |
graph LR
A[开始] --> B[登录 Azure 门户]
B --> C[导航到 Recovery Services vault]
C --> D[点击 Site Recovery]
D --> E[复制应用配置]
E --> F[选择源和目标区域等信息]
F --> G[选择要恢复的 VMs]
G --> H[启用复制]
H --> I[创建恢复计划]
I --> J[测试故障转移]
J --> K[清理测试故障转移]
K --> L[实际故障转移]
L --> M[提交故障转移]
M --> N[结束]
综上所述,Azure 提供了全面的资源监控和恢复解决方案,通过合理利用 Azure Policy、Azure Resource Graph、Azure Backup 和 Azure Site Recovery 等工具和功能,能够有效保障业务的连续性和数据的安全性,降低因 IT 系统故障带来的风险。在实际应用中,需根据具体业务需求和场景,精心配置和管理这些工具,以实现最佳的监控和恢复效果。
超级会员免费看

67

被折叠的 条评论
为什么被折叠?



