Tiny Universe - Tiny Eval 学习笔记

最新推荐文章于 2026-06-21 11:24:15 发布

原创

最新推荐文章于 2026-06-21 11:24:15 发布 · 3.7k 阅读

标签

#学习 #笔记 #人工智能 #语言模型

在完成了前面章节的学习之后，我们先了解了Qwen2的架构，然后通过动手搭建了RAG，Agent，对于大模型有了深入的了解。在最后一个章节的学习中，我们将学习如何实现对大模型的评测。

前置知识

以下是一些大模型评测常用的指标：

1. 准确性与精确性指标
准确率 (Accuracy)：模型正确预测的比例，适用于分类任务，但受数据不平衡影响较大。
精确率 (Precision)：在所有预测为正类的样本中，真正是正类的比例，用于衡量预测的精确程度。
召回率 (Recall)：真正是正类的样本中，被正确预测为正类的比例，衡量模型发现正类的能力。
F1分数 (F1 Score)：精确率和召回率的调和平均值，用于平衡两者的考量，特别是在数据不平衡时更为重要。
2. 模型效能指标
效率 (Efficiency)：模型处理速度，如每秒处理样本数（Throughput），以及资源消耗，如内存使用、GPU/TPU小时等。
推理延迟 (Inference Latency)：单个请求的处理时间，影响用户体验。
3. 泛化能力与鲁棒性指标
交叉验证得分 (Cross-Validation Scores)：使用如K折交叉验证评估模型在未见过数据上的表现。
ROC AUC (Receiver Operating Characteristic Area Under the Curve)：衡量二分类模型区分正负例的能力。
Robustness Metrics：评估模型在对抗性攻击或输入噪声下的稳定性。
4. 可解释性指标
LIME (Local Interpretable Model-Agnostic Explanations) 或 SHAP (SHapley Additive exPlanations)：提供模型决策的局部解释，帮助理解模型为何做出特定预测。
Attention Maps：对于基于注意力机制的模型，可视化注意力分布，理解模型关注哪些输入特征。
5. 安全性与合规性指标
隐私保护评估：检查模型是否泄露训练数据信息，如通过差分隐私测试。
内容安全：检测模型输出是否存在不良内容、歧视性言论等，确保模型输出符合法律法规和社会伦理。
6. 经济效益与实际应用指标
ROI (Return on Investment)：评估模型部署后带来的经济回报。
用户满意度：直接从用户反馈获取，衡量模型在实际应用中的效果。
技术创新指标：衡量模型引入的新技术或改进对行业发展的推动作用。
7. 多模态评估指标
BLEU (Bilingual Evaluation Understudy) 或 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)：用于评估机器翻译或文本摘要的质量。
mAP (mean Average Precision)：在图像识别和目标检测任务中，衡量模型在不同召回率下的平均精确率。

下面我们以F1 Score为例做个详细介绍

示例情境如下：假设我们有一个电子邮件分类器，任务是识别垃圾邮件（正例）和非垃圾邮件（反例）。我们用这个分类器对一个包含100封邮件的数据集进行了预测，其中实际上有20封是垃圾邮件，80封是非垃圾邮件。分类器预测的结果是，它标记了15封邮件为垃圾邮件，其中12封确实是垃圾邮件，而其余3封实际上是正常邮件；另外，它将85封邮件预测为非垃圾邮件，其中78封预测正确，7封实际上是垃圾邮件。

首先，根据预测结果，我们可以构建一个混淆矩阵：

这里，TP（True Positive）表示真正为垃圾邮件且被正确预测为垃圾邮件的数量，FP（False Positive）表示实际不是垃圾邮件但被错误预测为垃圾邮件的数量，FN（False Negative）表示实际是垃圾邮件但被错误预测为非垃圾邮件的数量，TN（True Negative）表示实际不是垃圾邮件且被正确预测为非垃圾邮件的数量。

计算精准率和召回率