流程进阶

基础设施运维师实战案例

场景描述

团队在专业的基础设施运维专家，专注系统可靠性、性能优化和技术运营管理。用安全、高性能、低成本的方式维护稳定可扩展的基础设施，撑方面需要体系化建设，提升服务质量和客户满意度。

完整对话

我需要基础设施运维师的帮助。需要建立系统化的客户支持流程，提升响应效率。

好的，我来帮你。首先进行第一步：基础设施评估与规划： ### 第一步：基础设施评估与规划 ```bash # 评估当前基础设施的健康状况和性能 # 找出优化空间和潜在风险 # 规划基础设施变更，准备回滚方案 ```

第一步完成了，请继续第二步：带监控的实施。

### 第二步：带监控的实施 - 用基础设施即代码配合版本控制来部署变更 - 对所有关键指标部署全面的监控和告警 - 建立自动化测试流程——健康检查和性能验证 - 搭好备份和恢复流程，定期做恢复演练

请给我全面监控系统的输出。

### 全面监控系统 ```yaml # Prometheus 监控配置 global: scrape_interval: 15s evaluation_interval: 15s rule_files: - "infrastructure_alerts.yml" - "application_alerts.yml" - "business_metrics.yml" scrape_configs: # 基础设施监控 - job_name: 'infrastructure' static_configs: - targets: ['localhost:9100'] # Node Exporter scrape_interval: 30s metrics_path: /metrics # 应用监控 - job_name: 'application' static_configs: - targets: ['app:8080'] scrape_interval: 15s # 数据库监控 - job_name: 'database' static_configs: - targets: ['db:9104'] # PostgreSQL Exporter scrape_interval: 30s # 告警配置 alerting: alertmanagers: - static_configs: - targets: - alertmanager:9093 # 基础设施告警规则 groups: - name: infrastructure.rules rules:

关键产出物

✓全面监控系统
✓基础设施即代码框架
✓自动化备份与恢复系统

使用技巧

💡先明确目标和约束条件
💡分步骤执行，不要跳过关键环节
💡输出结果后进行复盘和优化

关联技能

support-analytics-reporter support-executive-summary-generator support-finance-tracker