微调大语言模型全面评估指标图
├── 1. 任务性能(Task Performance)
│ ├─ 分类任务指标:Accuracy、Precision、Recall、F1-score、ROC-AUC
│ ├─ 生成任务指标:BLEU、ROUGE、METEOR、BERTScore
│ ├─ 检索任务指标:Exact Match、MRR、Hits@K
│ └─ 困惑度(Perplexity)
│
├── 2. 一致性(Consistency)
│ ├─ 重复采样一致性(语义相似度)
│ ├─ 逻辑一致性(无自相矛盾)
│ └─ 事实一致性(与知识库或标注对齐)
│
├── 3. 多样性(Diversity)
│ ├─ 词汇多样性(Type-Token Ratio)
│ ├─ 语义多样性(Embedding距离)
│ └─ 思路多样性(推理路径差异)
│
├── 4. 冗余率(Redundancy)
│ ├─ n-gram 重复率
│ ├─ 句子重复率
│ └─ 信息密度 / 信息熵
│
├── 5. 可控性(Controllability)
│ ├─ 指令遵守率
│ ├─ 格式和结构正确性(JSON Schema验证)
│ └─ 输出长度和风格符合预期
│
├── 6. 鲁棒性(Robustness)
│ ├─ 输入扰动容忍度(拼写错误、噪声)
│ ├─ 对抗样本测试效果
│ └─ 长尾样本表现
│
├── 7. 用户体验与在线评估(UX & Online Metrics)
│ ├─ 响应时间(Latency)
│ ├─ 用户满意度(CSAT、NPS)
│ ├─ 在线 A/B 测试结果(转化率、留存率)
│ └─ 实际业务指标提升
如何评估微调后大模型的的效果
最新推荐文章于 2026-06-22 20:56:42 发布

951

被折叠的 条评论
为什么被折叠?



