Tiny Universe - Tiny Eval 学习笔记

在完成了前面章节的学习之后,我们先了解了Qwen2的架构,然后通过动手搭建了RAG,Agent,对于大模型有了深入的了解。在最后一个章节的学习中,我们将学习如何实现对大模型的评测。

前置知识

以下是一些大模型评测常用的指标:

1. 准确性与精确性指标
准确率 (Accuracy):模型正确预测的比例,适用于分类任务,但受数据不平衡影响较大。
精确率 (Precision):在所有预测为正类的样本中,真正是正类的比例,用于衡量预测的精确程度。
召回率 (Recall):真正是正类的样本中,被正确预测为正类的比例,衡量模型发现正类的能力。
F1分数 (F1 Score):精确率和召回率的调和平均值,用于平衡两者的考量,特别是在数据不平衡时更为重要。
2. 模型效能指标
效率 (Efficiency):模型处理速度,如每秒处理样本数(Throughput),以及资源消耗,如内存使用、GPU/TPU小时等。
推理延迟 (Inference Latency):单个请求的处理时间,影响用户体验。
3. 泛化能力与鲁棒性指标
交叉验证得分 (Cross-Validation Scores):使用如K折交叉验证评估模型在未见过数据上的表现。
ROC AUC (Receiver Operating Characteristic Area Under the Curve):衡量二分类模型区分正负例的能力。
Robustness Metrics:评估模型在对抗性攻击或输入噪声下的稳定性。
4. 可解释性指标
LIME (Local Interpretable Model-Agnostic Explanations) 或 SHAP (SHapley Additive exPlanations):提供模型决策的局部解释,帮助理解模型为何做出特定预测。
Attention Maps:对于基于注意力机制的模型,可视化注意力分布,理解模型关注哪些输入特征。
5. 安全性与合规性指标
隐私保护评估:检查模型是否泄露训练数据信息,如通过差分隐私测试。
内容安全:检测模型输出是否存在不良内容、歧视性言论等,确保模型输出符合法律法规和社会伦理。
6. 经济效益与实际应用指标
ROI (Return on Investment):评估模型部署后带来的经济回报。
用户满意度:直接从用户反馈获取,衡量模型在实际应用中的效果。
技术创新指标:衡量模型引入的新技术或改进对行业发展的推动作用。
7. 多模态评估指标
BLEU (Bilingual Evaluation Understudy) 或 ROUGE (Recall-Oriented Understudy for Gisting Evaluation):用于评估机器翻译或文本摘要的质量。
mAP (mean Average Precision):在图像识别和目标检测任务中,衡量模型在不同召回率下的平均精确率。

下面我们以F1 Score为例做个详细介绍

示例情境如下:假设我们有一个电子邮件分类器,任务是识别垃圾邮件(正例)和非垃圾邮件(反例)。我们用这个分类器对一个包含100封邮件的数据集进行了预测,其中实际上有20封是垃圾邮件,80封是非垃圾邮件。分类器预测的结果是,它标记了15封邮件为垃圾邮件,其中12封确实是垃圾邮件,而其余3封实际上是正常邮件;另外,它将85封邮件预测为非垃圾邮件,其中78封预测正确,7封实际上是垃圾邮件。

首先,根据预测结果,我们可以构建一个混淆矩阵:

这里,TP(True Positive)表示真正为垃圾邮件且被正确预测为垃圾邮件的数量,FP(False Positive)表示实际不是垃圾邮件但被错误预测为垃圾邮件的数量,FN(False Negative)表示实际是垃圾邮件但被错误预测为非垃圾邮件的数量,TN(True Negative)表示实际不是垃圾邮件且被正确预测为非垃圾邮件的数量。

计算精准率和召回率

  • 精确率 (Precision):预测为垃圾邮件中真正是垃圾邮件的比例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值