5.4 评估与 AB 测试 + 5.5 数据飞轮 | AI Learning Path

5.4 评估与 AB 测试

[!] 阿里 JD 明确要求"设计完备的 AI 应用效果评估体系"，字节要求"构建稳健的评估方法"

评估维度：

维度	方法	工具
任务完成率	端到端测试	自建测试集
工具调用正确率	工具选择 + 参数校验	LangSmith
回答质量	LLM-as-Judge	GPT-4 自动评分
检索质量	Recall@K、MRR、NDCG	自建评估脚本
延迟/成本	TTFT、TPOT、Token 消耗	Prometheus + Grafana
用户满意度	线上指标	AB 测试平台

LLM-as-Judge 评估：

python

# 用 GPT-4 给 Agent 回答打分
eval_prompt = """你是一个评估专家。请对以下 Agent 回答评分（1-5分）。

问题：{question}
参考答案：{reference}
Agent 回答：{answer}

评分标准：
1分：完全错误
3分：部分正确
5分：完全正确且表述清晰

请输出 JSON：{"score": 3, "reason": "..."}"""

AB 测试要点：

分流策略：按用户 ID hash 分流，确保同一用户看到同一版本
核心指标：完成率、满意度、成本、延迟
统计显著性：至少 1000 样本，p-value < 0.05

5.5 数据飞轮

[!] 阿里 JD 要求"构建高质量数据生产链路，探索合成数据与高效蒸馏技术"

数据飞轮 = 用户反馈 → 数据标注 → 模型优化 → 效果提升 → 更多用户

环节	方法	说明
数据收集	用户反馈（👍👎）、行为日志	隐式 + 显式反馈
数据标注	人工标注 + LLM 辅助标注	降低标注成本
模型优化	SFT → RLHF/DPO → 在线学习	迭代优化
自动化评测	Bad Case 自动发现	覆盖率驱动