如何评估微调后大模型的的效果

微调大语言模型全面评估指标图
├── 1. 任务性能(Task Performance)
│ ├─ 分类任务指标:Accuracy、Precision、Recall、F1-score、ROC-AUC
│ ├─ 生成任务指标:BLEU、ROUGE、METEOR、BERTScore
│ ├─ 检索任务指标:Exact Match、MRR、Hits@K
│ └─ 困惑度(Perplexity)

├── 2. 一致性(Consistency)
│ ├─ 重复采样一致性(语义相似度)
│ ├─ 逻辑一致性(无自相矛盾)
│ └─ 事实一致性(与知识库或标注对齐)

├── 3. 多样性(Diversity)
│ ├─ 词汇多样性(Type-Token Ratio)
│ ├─ 语义多样性(Embedding距离)
│ └─ 思路多样性(推理路径差异)

├── 4. 冗余率(Redundancy)
│ ├─ n-gram 重复率
│ ├─ 句子重复率
│ └─ 信息密度 / 信息熵

├── 5. 可控性(Controllability)
│ ├─ 指令遵守率
│ ├─ 格式和结构正确性(JSON Schema验证)
│ └─ 输出长度和风格符合预期

├── 6. 鲁棒性(Robustness)
│ ├─ 输入扰动容忍度(拼写错误、噪声)
│ ├─ 对抗样本测试效果
│ └─ 长尾样本表现

├── 7. 用户体验与在线评估(UX & Online Metrics)
│ ├─ 响应时间(Latency)
│ ├─ 用户满意度(CSAT、NPS)
│ ├─ 在线 A/B 测试结果(转化率、留存率)
│ └─ 实际业务指标提升

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值