《SRE google 运维解密》读书笔记 (四)

事后总结:从失败中学习

哲学

保证事故能够被记录下来,理清所有根源问题。确保实施有效的措施是的未来重现的几率和影响得以降低,甚至避免。

书写事后总结不是一种惩罚,而是整个公司的一次学习机会。

需要书写的标准:

  • 用户可见的宕机或者服务质量下降到一定标准
  • 任何形式的数据丢失
  • on-call 工程师需要人工介入
  • 问题解决耗时超过一定限制
  • 监控问题

事后总结“对事不对人”。必须关注如何定位造成这次事件的根本问题。而不是指责某个人或者某个团队的错误或者不恰当。

事后总结系统性,逻辑性的讨论为什么会在事故过程中获得错误的的信息,才能更好的建立预防措施,防止问题再现。

最佳实践:避免指责,提供建设性意见

协作和知识共享

  • 实时协作
  • 开放的评论
  • 邮件通知

包含内容:

  • 关键的灾难数据是否收集保存起来了
  • 本次事故的影响评估是否完整
  • 造成事故的根源问题是否足够深入
  • 文档记录的任务优先级是否合理,是否及时解决了根源问题
  • 事故处理过程是否共享给了相关部门

最佳实践,所有的事后总结都要评审

建立事后总结文化

  • 本月最佳总结
  • 事后总结小组
  • 事后总结阅读俱乐部
  • 命运之轮
    • 可以对已经发生的事故进行演练

最佳实践:公开奖励做正确事的人
最佳实践:收集关于事后总结有效性的反馈

跟踪故障

  • 聚合
  • 加标签
  • 分析
    • 报告和公告