机器学习 02 降维

原创已于 2023-09-27 21:59:30 修改 · 94 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #算法 #人工智能

于 2023-04-18 16:32:46 首次发布

文章介绍了机器学习的两类主要方法：监督学习，包括分类和回归，如决策树、SVM和神经网络；无监督学习，关注聚类如K-Means和降维如主成分分析（PCA）。同时讨论了特征选择的重要性，如过滤式方法中的方差选择和相关系数分析，以及嵌入式方法如决策树和正则化。主成分分析用于高维数据压缩，以减少复杂度并保持大部分信息。

一、降维

机器学习分为监督学习、无监督学习和半监督学习(强化学习)

1.1 有监督学习

Supervised Learning对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行标记预测。

监督学习：分类、回归有标签

决策树、KNN、SVM、Native Bayes朴素贝叶斯算法、CNN、线性回归(Linear Regression)

逻辑回归(Logistic Regression)、决策树和随机森林（Decision Tree and Random Forests）

神经网络（Neural networks）

1.2 无监督学习

Unsupervised Learning 对没有标记的训练样本进行学习，以发现训练样本集中的结构性知识。

无监督学习最常应用的场景是聚类(clustering)和降维(dimension reduction)。

聚类：

K均值聚类(K-Means)、层次聚类(Hierarchical Clustering)、混合高斯模型(Gaussian Mixture Model)、谱聚类、DBSCAN基于密度的聚类算法、模糊聚类

降维：是指在某些限定条件下，降低随机变量(特征)个数，得到一组特征与特征之间不相关的过程。

主成因分析(Principal Component Analysis)、核主成分分析（kernel PCA）、线性判别分析(Linear Discriminant Analysis)、 t-SNE、MDS 、Expectation Maximization