预案平台

2022/6/18 SREdevops

# 简介

预案平台是一款保障业务高可用的应急管理系统,旨在提高应对突发事件的能力和效率。平台包含了多云架构下应急管理最佳实践,为公司提供全方位的预案管理、演练评估和应急响应支持。

# 功能

  1. 预案管理
    1. 预案准入,准出,涉及到预案规范
    2. 预案工单,依据规范将预案编排标准化,自动化。
  2. 预案执行
    1. 预案执行的前提是预案编排,根据不同的预案类型进行编排配置
    2. 全局预案->场景预案->原子预案
  3. 预案备份
    1. 根据预案类型定时备份,以便预案复位使用
  4. 预案复位
    1. 可根据预案类型单独复位,也可一键全局复位
  5. 预案验收
    1. 预案执行后的检查,确保不遗漏
  6. 预案自检
    1. 每日定时执行测试预案,以便自动检查预案平台功能是否正常。
  7. 预案通知
    1. 发送预案执行信息到运维变更通知群。

预案平台-功能分布

# 模型

预案平台-模型

# 预案类型

  • 原子预案:是预案执行的最小单位,根据预案类型分为以下几种
    • 域名预案:基于南北向域名切流,常态下双云解析,流量均分,故障时将故障云的解析改为可用云的解析,是当前使用最广泛的方案。
    • DOH预案:同域名解析,接了DOH的客户端优先通过DOH的获取解析,此时切域名预案无法将流量切走,故增加DOH预案,按照百分比切流。
    • 特征预案:部分业务自建了预案,通过调用业务提供的接口来执行多云切流
    • 作业预案:以脚本的方式执行,脚本通过作业平台来触发
  • 场景预案:主要是用作编排,分组,按照业务预单维度进行划分,场景预案可涵盖多种原子预案,一键执行。可用作故障演练或局部业务故障单独切流使用。
  • 全局预案:包含多种场景预案,可一键切流所有场景预案,主要用作公司级演练或单云故障使用。

# 域名模型

因公司域名数量众多,云厂商接口有API限流,为满足3分钟内完成全公司切流的目标,我们将业务域名模型定义为三层解析,第一层是网关层,以云为单位,第二层为预单域名,以业务线为单位,第三次为产品域名,配置域名预案时,配置预单域名,这样数量就控制在200个以内,大大减少了执行时间。

只爱西经
林一