调用超时问题排查思路
子车轻罗 2021/11/18 SRE规范
# 一、值守职责
及时响应值守期间收到的业务反馈,重要问题要及时分解上升,非自己领域问题要判断并转发到对应领域负责人。
# 二、值守人员
xxx,xxx,xxx
# 三、值守时间
非工作日包括不限于周末、节假日
# 四、活动范围
# 售卖大促
时间:周末
形式:在线/现场
要求:关注大促开始之后的15分钟
# 直播活动
需要根据具体的活动通知来确定时间,活动前半小时通常是学生进教室需要重点关注。
# 拍搜高峰
- 时间:节假日最后1天,包括元旦、清明、五一、端午、中秋、十一
- 形式:通常在线值守,持续时间从上午10点到12点,下午14点到16点
- 要求:需关注容量及空结果率等核心指标是否正常以及运维服务是否正常。
# 五、轮值要求
# 准入条件
达到QA等级XX以上
# 值守报备
值守人通过邮件发起值守申请,要明确告知值守形式、时间、活动类
# 轮值形式
- 值守人员按照顺序依次参加值守,1人1次,以活动为单位
- 轮值记录通过表格记录。附带链接:时间,活动,值守人,是否已调休
# 轮值会邀
应用方向SRE负责创建轮值会邀清晰转达到下一个轮值人员,否则默认本人负责值守,抄送邓瑞龙。包含活动会邀和轮值会邀
# 六、值守要求
- 活动开始前半小时要具备办公能力
- 活动期间电话可触达
- 活动期间处理问题要先响应,再处理,及时同步进展。
# 七、值守沉淀
需求处理
- 扩容,限流等可以通过工单完成的需求引导走工单流程
- 权限审批
- 流转:①如需求/问题排查值守人无法处理,需要理解业务反馈,按照领域划分,流转到对应的负责人;问题排查需要先引导反馈人给出相关依据,再流转到对应负责人领域划分 (opens new window)。②要确认重要等级,非重要紧急的需求沟通是否能够周一处理
值守记录
- 石墨文档:①记录活动大促相关数据②业务需求处理/流转进展③问题排查处理/流转进展
- 钉钉群:重要活动后要记录关键指标数据如售卖大促预约/下单qps,并同步到钉钉群:业务大促专项运维FT