前段时间写了ROC曲线和PR曲线的思想,这次做一些延伸:
PR曲线计算范围:大于阀值的那些样本计算得到。
而ROC曲线计算范围:根据阀值点对全量样本判断,进而依据全量样本计算。
1、什么是BEP(best event point),怎么选择
BEP是PR曲线中P=R时对应的阀值点,即在哪一个阀值下,精确率p和召回率r会相等。结合pr曲线趋势理解,bep越大,说明pr曲线越靠近右上角,pr曲线下方面积越大。
总结起来:表面上来说,bep取值为p=r下的阀值点,实际是衡量pr曲线趋向右上角的程度。
2、BEP和F1的关系
(理解方式1)
pr曲线由很多对(p、r)点所组成,其中每个(p、r)对痘对应一个f1值。而bep是依据整个pr曲线趋势得到。所以,f1
值是一个局部指标,衡量模型在指定阀值点下的预测能力,而bep是一个全局指标,衡量模型在各个阀值点下的全局预测能力。
(理解方式2)
从实际数据挖掘角度来说,由于一般使用默认阀值,所以数据挖掘人员一般只会得到一个F1值,这是F1又可以认为是一个全局模型指标,一个对应默认阀值点下的全局模型指标。而bep实际是p=r处的阀值点,所以bep又可以理解为一个局部指标,一个刻画pr曲线趋向于右上角的局部指标。
局部指标和全局指标是相对而言。
3、PR曲线下面面积的含义
pr曲线下方类似于roc曲线的下方面积AUC,但含义不一样。平均精确率(average precision)可以认为是pr曲线下方的近似面积,计算方式:
ap
本文深入探讨了BEP(最佳事件点)的概念及其在PR曲线中的作用,对比了BEP与F1值的不同,解释了两者在评估模型性能时的全局与局部视角,并介绍了PR曲线下面积的计算方法及其物理意义。
订阅专栏 解锁全文

732

被折叠的 条评论
为什么被折叠?



