如何评估微调后大模型的的效果

最新推荐文章于 2026-06-22 20:56:42 发布

原创最新推荐文章于 2026-06-22 20:56:42 发布 · 361 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

收录于

微调大语言模型全面评估指标图
├── 1. 任务性能（Task Performance）
│ ├─ 分类任务指标：Accuracy、Precision、Recall、F1-score、ROC-AUC
│ ├─ 生成任务指标：BLEU、ROUGE、METEOR、BERTScore
│ ├─ 检索任务指标：Exact Match、MRR、Hits@K
│ └─ 困惑度（Perplexity）
│
├── 2. 一致性（Consistency）
│ ├─ 重复采样一致性（语义相似度）
│ ├─ 逻辑一致性（无自相矛盾）
│ └─ 事实一致性（与知识库或标注对齐）
│
├── 3. 多样性（Diversity）
│ ├─ 词汇多样性（Type-Token Ratio）
│ ├─ 语义多样性（Embedding距离）
│ └─ 思路多样性（推理路径差异）
│
├── 4. 冗余率（Redundancy）
│ ├─ n-gram 重复率
│ ├─ 句子重复率
│ └─ 信息密度 / 信息熵
│
├── 5. 可控性（Controllability）
│ ├─ 指令遵守率
│ ├─ 格式和结构正确性（JSON Schema验证）
│ └─ 输出长度和风格符合预期
│
├── 6. 鲁棒性（Robustness）
│ ├─ 输入扰动容忍度（拼写错误、噪声）
│ ├─ 对抗样本测试效果
│ └─ 长尾样本表现
│
├── 7. 用户体验与在线评估（UX & Online Metrics）
│ ├─ 响应时间（Latency）
│ ├─ 用户满意度（CSAT、NPS）
│ ├─ 在线 A/B 测试结果（转化率、留存率）
│ └─ 实际业务指标提升