5.4 评估与 AB 测试
[!] 阿里 JD 明确要求"设计完备的 AI 应用效果评估体系",字节要求"构建稳健的评估方法"
评估维度:
| 维度 | 方法 | 工具 |
|---|---|---|
| 任务完成率 | 端到端测试 | 自建测试集 |
| 工具调用正确率 | 工具选择 + 参数校验 | LangSmith |
| 回答质量 | LLM-as-Judge | GPT-4 自动评分 |
| 检索质量 | Recall@K、MRR、NDCG | 自建评估脚本 |
| 延迟/成本 | TTFT、TPOT、Token 消耗 | Prometheus + Grafana |
| 用户满意度 | 线上指标 | AB 测试平台 |
LLM-as-Judge 评估:
python
# 用 GPT-4 给 Agent 回答打分
eval_prompt = """你是一个评估专家。请对以下 Agent 回答评分(1-5分)。
问题:{question}
参考答案:{reference}
Agent 回答:{answer}
评分标准:
1分:完全错误
3分:部分正确
5分:完全正确且表述清晰
请输出 JSON:{"score": 3, "reason": "..."}"""AB 测试要点:
- 分流策略:按用户 ID hash 分流,确保同一用户看到同一版本
- 核心指标:完成率、满意度、成本、延迟
- 统计显著性:至少 1000 样本,p-value < 0.05
5.5 数据飞轮
[!] 阿里 JD 要求"构建高质量数据生产链路,探索合成数据与高效蒸馏技术"
数据飞轮 = 用户反馈 → 数据标注 → 模型优化 → 效果提升 → 更多用户
| 环节 | 方法 | 说明 |
|---|---|---|
| 数据收集 | 用户反馈(👍👎)、行为日志 | 隐式 + 显式反馈 |
| 数据标注 | 人工标注 + LLM 辅助标注 | 降低标注成本 |
| 模型优化 | SFT → RLHF/DPO → 在线学习 | 迭代优化 |
| 自动化评测 | Bad Case 自动发现 | 覆盖率驱动 |