《SRE google 运维解密》读书笔记 (五)
测试可靠性
预测信息准确的前提:
- 系统完全没有改变
- 充分描述整个系统的改变
测试是一个用来证明变更前系统的某些领域相等的手段。
软件测试的类型
- 传统测试
- 生产测试
传统测试
- 单元测试
- 集成测试
- 系统测试
- 冒烟测试
- 性能测试
- 回归测试
每个测试都有成本,通常来说单元测试时间成本低 如果要将完整的功能架设起来测试,通常需要几个小时。关注测试成本,是软件提升效率的重要因素。
生产测试
生产测试和一个已经部署在生产环境的业务系统直接交互,而不是运行在封闭的测试环境。有时候称为黑盒测试
- 配置测试
- 压力测试
- 金丝雀测试
- 一小部分机器先升级,保持一定的孵化期。
- 将代码置于比较难以预测的用户流量下
- 需要能够快速的回滚
创造一个构建和测试环境
- 测试的重点集中在用最小力气得到最大收益的地方
- 划分优先级
- 寻找关键函数关键类
- 寻找提供给其他团队的 API
- 发布前,通过冒烟测试
- 寻找到的 bug 变成测试用例
- 建立良好的测试基础设施
- 追踪代码变更
- 每次代码改变就进行构建
- 精确的构建,只构建修改的地方,并执行修改代码的单侧
- 使用工具可视化或者量化测试覆盖度
- 和钱相关的系统需要更多测试
大规模测试
单元测试需要有针对性的覆盖组件中相互依赖的部分
测试大规模使用的工具
针对灾难的测试
灾难恢复工具被精心设计为离线运行
- 计算出一个可记录状态,等同于服务完全停止的状态
- 将可记录的状态推送给非灾难验证工具
- 支持常见的发布安全边界检查
对速度的渴求
有的时候测试的结果会在重复运行下发生改变。所以需要针对某些场景,重复运行一定数量的测试。
发布到生产环境
通常,生产环境的配置文件容易被测试忽略。
集成
使用解释性语言编写配置文件是有风险的。程序的执行时间没有上限,需要加入截止时间检查。
使用成熟的语法(YAML)和大量测试的解析器。
生产环境探针
测试机制是对确定的数据检验系统行为是否可以接受。
监控机制择时在未知数据输入下系统行为是否可以接受。
已知的正确请求应该成功,已知的错误请求应该失败。重放已知请求观察系统是否正常。
(感觉应该是书翻译的问题所谓的探针应该是 mock 服务。mock 服务部署在生产环境 。在确定的入参下,有确定的返回值。调用方可以使用这个探针进行测试)
小结
测试是工程师提高可靠性投入回报比较高的手段。