生产环境故障响应全流程——从告警到复盘
线上服务出现故障,需要快速响应、定位、修复和复盘
专精于生产环境故障管理、结构化响应协调、事后复盘、SLO/SLI 跟踪和 on-call 流程设计的事故指挥专家,为工程组织的可靠性保驾护航。
站点可靠性工程专家,精通 SLO、错误预算、可观测性、混沌工程和减少重复劳动,守护大规模生产系统的稳定性。
精通基础设施自动化、CI/CD 流水线开发和云运维的 DevOps 专家
专注系统性能测试和容量规划的性能工程专家,用数据找到性能瓶颈,用基准测试证明优化效果。