机器学习基本概念-CSDN博客

机器学习算法分类：

按照样本数据中是否带有标签值，可以机器学习算法分为监督学习与无监督学习；无监督学习(Unsupervised Learning)的典型代表是聚类、表示学习（如，自动编码器和首先玻尔兹曼机）和数据降维（如，流形学习）；

按照标签值的类型，可以将有监督学习分为分类问题与回归问题；通常情况下。如果标签值是连续实数。则称为回归问题；反之，若标签值类型为离散，则成为分类问题；

按照求解的方法，可以将有监督学习算法分为生成模型和判别模型；常见的生成模型有贝叶斯分类器、高斯混合模型、隐马尔可夫模型、受限玻尔兹曼机、生成对抗网络等；典型的判别模型有决策树、KNN算法、人工神经网络、支持向量机、logistic回归、AdaBoost算法等。

机器学习算法评价指标：

对于分类问题，常用的评价指标是准确率；

对于回归问题，是回归误差；

对于二分类问题，定义精确与召回率指标，以及真阳率和假阳率，在此基础上可以得到ROC曲线；

对于分类问题，常用的评价标准是混淆矩阵；

而泛化能力是有监督学习算法的核心标准，与模型泛化能力相关有过拟合和欠拟合，对模型误差进行分解可以得到方差和偏差的概念。正则化技术是解决过拟合问题的常见方法（实例：岭回归算法）。

在定义各种评价指标之前，先明确样本和所有可能出现的情况：假设有一二分类问题，样本类型为：正样本和负样本。可能出现的情况为：测试样本中的正样本被分类器判定为正样本的数量记为TP（True Positive），被分类器判定为负样本的数量记为FN（False Negative）；测试样本中负样本被分类器判定为负样本的数量记为TN（True Negative），被分类器判定为正样本的数量记为FP（False Positive）。

精度

精度是被分类器判定为正样本的样本中真正的正样本所占的比例，当值趋近于1时，表示样本的分类越准确，公式为：
$P=TPTP+FPP=\frac{TP}{TP+FP}$

召回率

召回率是所有正样本中被分类器判定为正样本的比例，当分类器的输出都为正样本时，召回率为1，此时精度很低。公式为:
$R=TPTP+FNR=\frac{TP}{TP+FN}$

F1值

F1值是精度和召回率的调和平均值，取值范围为0-1。当精度和召回率很高时，F1值也会很高，说明模型对正、负样本的检测都表现很好；反之，若其中之一较低，F1值也会较低，说明模型在某一方面表现不佳。公式为：
$F1=2PRP+RF_1=\frac{2PR}{P+R}$

ROC曲线

ROC（Receiver Operator Characteristic）曲线适用于二分类问题。定义真阳率为正样本被分类器分类为正样本的比例，即： $TPR=TPTP+FNTPR=\frac{TP}{TP+FN}$ ，定义假阳率为负样本被分类器分类为正样本的比例，即： $FPR=FPFP+TNFPR=\frac{FP}{FP+TN}$ 。ROC曲线通常横轴为假阳率，纵轴为真阳率，实例如下图所示：
在这里插入图片描述
曲线下面积的范围为[0,1]，面积越大，说明分类器的效果越好。