机器学习算法分类:
按照样本数据中是否带有标签值,可以机器学习算法分为监督学习与无监督学习;无监督学习(Unsupervised Learning)的典型代表是聚类、表示学习(如,自动编码器和首先玻尔兹曼机)和数据降维(如,流形学习);
按照标签值的类型,可以将有监督学习分为分类问题与回归问题;通常情况下。如果标签值是连续实数。则称为回归问题;反之,若标签值类型为离散,则成为分类问题;
按照求解的方法,可以将有监督学习算法分为生成模型和判别模型;常见的生成模型有贝叶斯分类器、高斯混合模型、隐马尔可夫模型、受限玻尔兹曼机、生成对抗网络等;典型的判别模型有决策树、KNN算法、人工神经网络、支持向量机、logistic回归、AdaBoost算法等。
机器学习算法评价指标:
对于分类问题,常用的评价指标是准确率;
对于回归问题,是回归误差;
对于二分类问题,定义精确与召回率指标,以及真阳率和假阳率,在此基础上可以得到ROC曲线;
对于分类问题,常用的评价标准是混淆矩阵;
而泛化能力是有监督学习算法的核心标准,与模型泛化能力相关有过拟合和欠拟合,对模型误差进行分解可以得到方差和偏差的概念。正则化技术是解决过拟合问题的常见方法(实例:岭回归算法)。
在定义各种评价指标之前,先明确样本和所有可能出现的情况:假设有一二分类问题,样本类型为:正样本和负样本。可能出现的情况为:测试样本中的正样本被分类器判定为正样本的数量记为TP(True Positive),被分类器判定为负样本的数量记为FN(False Negative);测试样本中负样本被分类器判定为负样本的数量记为TN(True Negative),被分类器判定为正样本的数量记为FP(False Positive)。
精度
精度是被分类器判定为正样本的样本中真正的正样本所占的比例,当值趋近于1时,表示样本的分类越准确,公式为:
P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP
召回率
召回率是所有正样本中被分类器判定为正样本的比例,当分类器的输出都为正样本时,召回率为1,此时精度很低。公式为:
R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP
F1值
F1值是精度和召回率的调和平均值,取值范围为0-1。当精度和召回率很高时,F1值也会很高,说明模型对正、负样本的检测都表现很好;反之,若其中之一较低,F1值也会较低,说明模型在某一方面表现不佳。公式为:
F1=2PRP+RF_1=\frac{2PR}{P+R}F1=P+R2PR
ROC曲线
ROC(Receiver Operator Characteristic)曲线适用于二分类问题。定义真阳率为正样本被分类器分类为正样本的比例,即:TPR=TPTP+FNTPR=\frac{TP}{TP+FN}TPR=TP+FNTP,定义假阳率为负样本被分类器分类为正样本的比例,即:FPR=FPFP+TNFPR=\frac{FP}{FP+TN}FPR=FP+TNFP。ROC曲线通常横轴为假阳率,纵轴为真阳率,实例如下图所示:

曲线下面积的范围为[0,1],面积越大,说明分类器的效果越好。
混淆矩阵
对于k分类问题,矩阵大小为k*k。其元素AijA_{ij}Aij表示为第i类样本被分类器判定为第j类样本的数量。实例如下图:
混淆矩阵对角线上的值越大,分类器的准确率越高。
模型的泛化能力
欠拟合(under-fitting)也称为欠学习,引起欠拟合的原因为模型本身过于简单;过拟合(over-fitting)也称为过学习,模型的泛化能力差,引起过拟合的原因有:模型本身过于复杂,拟合了训练样本中的噪声、样本太少或者样本缺少代表性、训练样本中具有噪声。


被折叠的 条评论
为什么被折叠?



