目录
一、基础认识
1. 介绍
与特征选择类似,我们可以 用不同的特征提取技术来减少数据集的特征数量。特征选择和特征提取的区别在于,当我们用诸如 逆序选择之类的特征选择算法 时,数据集的原始特征 保持不变,而当我们用 特征提取 方法时,会将数据变换 或投影到 新特征空间。在降维的背景下,我们可以 把特征提取理解为 数据压缩的一种方法,其目的是 保持大部分的相关信息。
在实际应用中,特征提取 不仅可以优化存储空间 或 机器学习算法 的计算效率,而且还可以 通过减少 维数 提高预测性能,尤其是当我们 处理非正则化 模型的时候。
2. 认识 “ 维度 ”
(1)数组和Series
对于 数组 和 Series来说,维度就是功能shape返回的结果,shape中 返回了 几个数字,就是几维。

(2)DataFrame 表
数组中的 每一张表,都可以是 一个特征矩阵 或 一个 DataFrame,表中 行是 样本,列 是特征。针对每一张表,维度 指的是 样本的数量 或 特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n 个特征是 n维。

(3)图像
对图像 来说,维度就是图像中特征向量的数量。特征向量可以理解为是 坐标轴,一个特征向量定义一条直线,是 一维,两个相互垂直的特征向量定义一个 平面,即一个直角坐标系,就是二维,三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维。三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。

降维算法中的 “ 降维 ”,指的是 降低 特征矩阵中 特征的 数量。
3. 降维思想
在降维过程中,我们会 减少特征的 数量,这意味着 删除数据,数据量 变少

&spm=1001.2101.3001.5002&articleId=140574176&d=1&t=3&u=8ca4bd64699f4174b981634fc514b706)
3034

被折叠的 条评论
为什么被折叠?



