《SRE google 运维解密》读书笔记 (四)
事后总结:从失败中学习
哲学
保证事故能够被记录下来,理清所有根源问题。确保实施有效的措施是的未来重现的几率和影响得以降低,甚至避免。
书写事后总结不是一种惩罚,而是整个公司的一次学习机会。
需要书写的标准:
- 用户可见的宕机或者服务质量下降到一定标准
- 任何形式的数据丢失
- on-call 工程师需要人工介入
- 问题解决耗时超过一定限制
- 监控问题
事后总结“对事不对人”。必须关注如何定位造成这次事件的根本问题。而不是指责某个人或者某个团队的错误或者不恰当。
事后总结系统性,逻辑性的讨论为什么会在事故过程中获得错误的的信息,才能更好的建立预防措施,防止问题再现。
最佳实践:避免指责,提供建设性意见
协作和知识共享
- 实时协作
- 开放的评论
- 邮件通知
包含内容:
- 关键的灾难数据是否收集保存起来了
- 本次事故的影响评估是否完整
- 造成事故的根源问题是否足够深入
- 文档记录的任务优先级是否合理,是否及时解决了根源问题
- 事故处理过程是否共享给了相关部门
最佳实践,所有的事后总结都要评审
建立事后总结文化
- 本月最佳总结
- 事后总结小组
- 事后总结阅读俱乐部
- 命运之轮
- 可以对已经发生的事故进行演练
最佳实践:公开奖励做正确事的人
最佳实践:收集关于事后总结有效性的反馈
跟踪故障
- 聚合
- 加标签
- 分析
- 报告和公告