预案平台
子车轻罗 2022/6/18 SREdevops
# 简介
预案平台是一款保障业务高可用的应急管理系统,旨在提高应对突发事件的能力和效率。平台包含了多云架构下应急管理最佳实践,为公司提供全方位的预案管理、演练评估和应急响应支持。
# 功能
- 预案管理
- 预案准入,准出,涉及到预案规范
- 预案工单,依据规范将预案编排标准化,自动化。
- 预案执行
- 预案执行的前提是预案编排,根据不同的预案类型进行编排配置
- 全局预案->场景预案->原子预案
- 预案备份
- 根据预案类型定时备份,以便预案复位使用
- 预案复位
- 可根据预案类型单独复位,也可一键全局复位
- 预案验收
- 预案执行后的检查,确保不遗漏
- 预案自检
- 每日定时执行测试预案,以便自动检查预案平台功能是否正常。
- 预案通知
- 发送预案执行信息到运维变更通知群。
# 模型
# 预案类型
- 原子预案:是预案执行的最小单位,根据预案类型分为以下几种
- 域名预案:基于南北向域名切流,常态下双云解析,流量均分,故障时将故障云的解析改为可用云的解析,是当前使用最广泛的方案。
- DOH预案:同域名解析,接了DOH的客户端优先通过DOH的获取解析,此时切域名预案无法将流量切走,故增加DOH预案,按照百分比切流。
- 特征预案:部分业务自建了预案,通过调用业务提供的接口来执行多云切流
- 作业预案:以脚本的方式执行,脚本通过作业平台来触发
- 场景预案:主要是用作编排,分组,按照业务预单维度进行划分,场景预案可涵盖多种原子预案,一键执行。可用作故障演练或局部业务故障单独切流使用。
- 全局预案:包含多种场景预案,可一键切流所有场景预案,主要用作公司级演练或单云故障使用。
# 域名模型
因公司域名数量众多,云厂商接口有API限流,为满足3分钟内完成全公司切流的目标,我们将业务域名模型定义为三层解析,第一层是网关层,以云为单位,第二层为预单域名,以业务线为单位,第三次为产品域名,配置域名预案时,配置预单域名,这样数量就控制在200个以内,大大减少了执行时间。