从混淆矩阵到F1值：在mmdetection中实战评估目标检测模型性能-CSDN博客

1. 从“猜对了吗”到“猜得有多好”：理解混淆矩阵

刚入坑目标检测那会儿，我总觉得模型训练完，看一眼mAP（平均精度）就完事了。直到有一次，我部署了一个在测试集上mAP看起来还不错的模型，结果在实际场景里，它总是把“消防栓”认成“邮筒”，把“哈士奇”认成“狼”。用户反馈回来，我才傻了眼。mAP这个综合指标告诉我“模型整体不错”，但它没告诉我，模型具体在哪些地方“犯了混”。这时候，一个更基础、更直观的工具就显得尤为重要了，它就是混淆矩阵。

你可以把混淆矩阵想象成一张模型的“成绩单”或者“检讨书”。假设我们有一个简单的任务：从图片里找出“猫”和“狗”。模型每做一次预测，结果无外乎四种情况：

图片里真的是猫，模型也预测是猫。这叫真正例，也就是我们常说的TP。这是最理想的情况，模型猜对了正样本。
图片里其实是狗，但模型误认为是猫。这叫假正例，也就是FP。模型“谎报军情”，把不是猫的样本当成了猫。
图片里真的是猫，但模型没认出来，预测成了狗或者其他。这叫假负例，也就是FN。模型“漏报”了，该发现的没发现。
图片里真的是狗，模型也预测是狗。这叫真负例，也就是TN。在目标检测中，由于背景（负样本）数量极其庞大，我们通常更关注前三个与正样本（我们关心的物体）相关的指标。

把这四种情况，按“真实情况”和“预测情况”两个维度，整理成一个表格，就是混淆矩阵。行代表真实标签，列代表预测标签。对角线上的数字（从左上到右下）就是各个类别的TP。非对角线上的数字，就代表了各种“混淆”的错误。通过这张表，你一眼就能看出模型到底“混淆”了哪些类别。比如，猫狗分类的混淆矩阵可能显示，模型把10只猫预测成了狗（FN），又把5只狗预测成了猫（FP）。这比一个孤零零的85%准确率要有用得多，因为它直接指出了问题所在：模型在区分猫和狗时存在困难。

在mmdetection这类框架里，当我们用 tools/test.py 并指定 --out 参数保存结果后，框架内部其实已经为我们计算好了每个类别的预测与真实框的匹配情况。tools/analysis_tools/confusion_matrix.py 这个脚本，就是把这些匹配关系汇总起来，生成那张关键的“成绩单”。理解这张表，是我们进行一切深入性能评估的起点。

2. 准确率与召回率：一对相爱相杀的“冤家”

有了混淆矩阵这张明细表，我们就可以从中提炼出两个至关重要的指标：准确率和召回率。这两个指标可以说是评估模型性能的“黄金搭档”，但它们的关系常常让人头疼，因为很多时候它们像坐在跷跷板的两端，一个高了，另一个就容易低。

我们先说准确率。它的核心问题是：“模型说某个东西是‘猫’，这个判断有多可信？” 计算起来很简单，就是所有被模型预测为“猫”的样本中，到底有多少真的是猫。公式是 Precision = TP / (TP + FP)。你看，分母是模型所有“认为是猫”的预测（TP+FP），分子是其中“猜对了”的部分（TP）。所以，高准确率意味着模型非常“严谨”或者“保守”，它不轻易下结论，一旦它说“这是猫”，那十有八九就是猫。但它的代价可能是，很多真正的猫因为模型太谨慎而被漏掉了（FN增多）。

举个例子，我训练过一个检测精密零件的模型。如果准确率低，就意味着机器臂可能会经常抓错零件，导致生产线混乱。所以我必须优先保证高准确率，宁可漏检一些，也不能抓错。这时，模型就像一个非常严格的质检员，宁可放过一些有微小瑕疵的产品，也绝不让一个次品流入市场。

然后是召回率。它关心的是：“所有真实的‘猫’，模型找出来了多少？” 公式是 Recall = TP / (TP + FN)。分母是全世界所有真实的猫（TP+FN），分子是模型成功找出来的猫（TP）。高召回率意味着模型“宁可错杀，不可放过”，它竭尽全力把所有的猫都找出来，哪怕因此把一些狗也误认成