《SRE google 运维解密》读书笔记（四）

Posted on 2022-05-04 Edited on 2024-09-02 Views: Valine:

事后总结：从失败中学习

保证事故能够被记录下来，理清所有根源问题。确保实施有效的措施是的未来重现的几率和影响得以降低，甚至避免。

书写事后总结不是一种惩罚，而是整个公司的一次学习机会。

需要书写的标准：

事后总结“对事不对人”。必须关注如何定位造成这次事件的根本问题。而不是指责某个人或者某个团队的错误或者不恰当。

事后总结系统性，逻辑性的讨论为什么会在事故过程中获得错误的的信息，才能更好的建立预防措施，防止问题再现。

最佳实践：避免指责，提供建设性意见

包含内容：

最佳实践，所有的事后总结都要评审

最佳实践：公开奖励做正确事的人
最佳实践：收集关于事后总结有效性的反馈