调用超时问题排查思路

2021/11/18 SRE规范

# 一、值守职责

及时响应值守期间收到的业务反馈,重要问题要及时分解上升,非自己领域问题要判断并转发到对应领域负责人。

# 二、值守人员

xxx,xxx,xxx

# 三、值守时间

非工作日包括不限于周末、节假日

# 四、活动范围

# 售卖大促

  • 时间:周末

  • 形式:在线/现场

  • 要求:关注大促开始之后的15分钟

# 直播活动

需要根据具体的活动通知来确定时间,活动前半小时通常是学生进教室需要重点关注。

# 拍搜高峰

  • 时间:节假日最后1天,包括元旦、清明、五一、端午、中秋、十一
  • 形式:通常在线值守,持续时间从上午10点到12点,下午14点到16点
  • 要求:需关注容量及空结果率等核心指标是否正常以及运维服务是否正常。

# 五、轮值要求

# 准入条件

达到QA等级XX以上

# 值守报备

值守人通过邮件发起值守申请,要明确告知值守形式、时间、活动类

# 轮值形式

  1. 值守人员按照顺序依次参加值守,1人1次,以活动为单位
  2. 轮值记录通过表格记录。附带链接:时间,活动,值守人,是否已调休

# 轮值会邀

应用方向SRE负责创建轮值会邀清晰转达到下一个轮值人员,否则默认本人负责值守,抄送邓瑞龙。包含活动会邀和轮值会邀

# 六、值守要求

  1. 活动开始前半小时要具备办公能力
  2. 活动期间电话可触达
  3. 活动期间处理问题要先响应,再处理,及时同步进展。

# 七、值守沉淀

  1. 需求处理

    1. 扩容,限流等可以通过工单完成的需求引导走工单流程
    2. 权限审批
    3. 流转:①如需求/问题排查值守人无法处理,需要理解业务反馈,按照领域划分,流转到对应的负责人;问题排查需要先引导反馈人给出相关依据,再流转到对应负责人领域划分 (opens new window)。②要确认重要等级,非重要紧急的需求沟通是否能够周一处理
  2. 值守记录

    1. 石墨文档:①记录活动大促相关数据②业务需求处理/流转进展③问题排查处理/流转进展
    2. 钉钉群:重要活动后要记录关键指标数据如售卖大促预约/下单qps,并同步到钉钉群:业务大促专项运维FT
Last Updated: 2025/8/26
只爱西经
林一