Skip to content

5.4 评估与 AB 测试

[!] 阿里 JD 明确要求"设计完备的 AI 应用效果评估体系",字节要求"构建稳健的评估方法"

评估维度:

维度方法工具
任务完成率端到端测试自建测试集
工具调用正确率工具选择 + 参数校验LangSmith
回答质量LLM-as-JudgeGPT-4 自动评分
检索质量Recall@K、MRR、NDCG自建评估脚本
延迟/成本TTFT、TPOT、Token 消耗Prometheus + Grafana
用户满意度线上指标AB 测试平台

LLM-as-Judge 评估:

python
# 用 GPT-4 给 Agent 回答打分
eval_prompt = """你是一个评估专家。请对以下 Agent 回答评分(1-5分)。

问题:{question}
参考答案:{reference}
Agent 回答:{answer}

评分标准:
1分:完全错误
3分:部分正确
5分:完全正确且表述清晰

请输出 JSON:{"score": 3, "reason": "..."}"""

AB 测试要点:

  • 分流策略:按用户 ID hash 分流,确保同一用户看到同一版本
  • 核心指标:完成率、满意度、成本、延迟
  • 统计显著性:至少 1000 样本,p-value < 0.05

5.5 数据飞轮

[!] 阿里 JD 要求"构建高质量数据生产链路,探索合成数据与高效蒸馏技术"

数据飞轮 = 用户反馈 → 数据标注 → 模型优化 → 效果提升 → 更多用户

环节方法说明
数据收集用户反馈(👍👎)、行为日志隐式 + 显式反馈
数据标注人工标注 + LLM 辅助标注降低标注成本
模型优化SFT → RLHF/DPO → 在线学习迭代优化
自动化评测Bad Case 自动发现覆盖率驱动