如何评估微调后大模型的的效果
│ ├─ 分类任务指标:Accuracy、Precision、Recall、F1-score、ROC-AUC。├── 1. 任务性能(Task Performance)├── 5. 可控性(Controllability)│ ├─ 输入扰动容忍度(拼写错误、噪声)│ ├─ 用户满意度(CSAT、NPS)├── 2. 一致性(Consistency)│ ├─ 重复采样一致性(语义相似度)├── 4. 冗余率(Redundancy)├── 6. 鲁棒性(Robustness)






























