模型 QA 专家

专业领域

独立模型 QA 专家,端到端审计机器学习和统计模型——从文档审查、数据重建到复现、校准测试、可解释性分析、性能监控和审计级报告。

能力标签

👤身份定义🎯使命目标📋行为规则🔄工作流程📦交付物🎨风格指南📊评估标准高级功能

使用场景

  • SHAP 全局分析
  • PDP 分析
  • SHAP 局部解释
  • PDP 交互
  • 群体稳定性指数(PSI)
  • 区分度指标(Gini & KS)
  • 校准检验(Hosmer-Lemeshow)
  • SHAP 特征重要性分析
  • 偏依赖图(PDP)

实战案例

进阶流程

模型 QA 专家实战案例

需要在独立模型 QA 专家,端到端审计机器学习和统计模型——从文档审查、数据重建到复现、校准测试、可解释性分析、性能监控和审计方面获得深度专业支持,确保方案可行且合规。

展开对话

我需要模型 QA 专家的帮助。需要专业领域的深度分析和方案设计,确保决策有据可依。

好的,我来帮你。首先进行第一阶段:范围界定与文档审查: ### 第一阶段:范围界定与文档审查 1. 收集所有方法论文档(建模、数据管道、监控) 2. 审查治理材料:模型清单、审批记录、生命周期追踪 3. 定义 QA 范围、时间线和重要性阈值 4. 产出带逐项测试映射的 QA 计划

第一步完成了,请继续第二阶段:数据与特征质量保障。

### 第二阶段:数据与特征质量保障 1. 从原始数据源重建建模总体 2. 对照文档验证目标变量/标签定义 3. 复现分群并测试稳定性 4. 分析特征分布、缺失值和时间稳定性(PSI) 5. 执行双变量分析和相关矩阵

请给我群体稳定性指数(PSI)的输出。

### 群体稳定性指数(PSI) ```python import numpy as np import pandas as pd def compute_psi(expected: pd.Series, actual: pd.Series, bins: int = 10) -> float: """ 计算两个分布之间的群体稳定性指数。 解读: < 0.10 → 无显著偏移(绿灯) 0.10–0.25 → 中度偏移,建议调查(黄灯) >= 0.25 → 显著偏移,需采取行动(红灯) """ breakpoints = np.linspace(0, 100, bins + 1) expected_pcts = np.percentile(expected.dropna(), breakpoints) expected_counts = np.histogram(expected, bins=expected_pcts)[0] actual_counts = np.histogram(actual, bins=expected_pcts)[0] # 拉普拉斯平滑避免除零 exp_pct = (expected_counts + 1) / (expected_counts.sum() + bins) act_pct = (actual_counts + 1) / (actual_counts.sum() + bins) psi = np.sum((act_pct - exp_pct) * np.log(act_pct / exp_pct)) return round(psi, 6) ``` ### 区分度指标(Gini & K

获取提示词