【机器学习】基本概念

最新推荐文章于 2025-06-02 22:14:15 发布

原创

最新推荐文章于 2025-06-02 22:14:15 发布 · 2.5k 阅读

标签

#机器学习

数据集：所要研究的数据的集合。
数据集的分类：训练集：a. 训练数据（training data）：用于构建模型。b.验证数据（validation data）：可选，用于辅助模型构建。
测试集：测试数据（testing data）：用于检测模型构建，此数据只在模型检验时使用，用于评估模型的准确率。绝对不允许用于模型构建过程，否则会导致过渡拟合。
样本（示例）：数据集中的一条记录，或者说一个对象。
特征（属性）：对象的属性，如西瓜有3个属性，色泽，根蒂，敲声。
属性值：很好理解，就是属性的取值。
特征向量：若把样本放到空间坐标系中，每个样本都对应一个位置，产生的向量叫特征向量。样本空间：样本所在的坐标系空间。
维度：每个样本的属性数量，如西瓜样本的维度是3。
标记：训练集样本的结果信息，比如研究西瓜为了得到它是好瓜还是坏瓜，这里好瓜，坏瓜都是标记。
标记空间（输出空间）：所有标记的集合。
假设空间：根据训练集的所有属性，可以形成的所有可能的模型的集合叫做“假设空间”。
版本空间：在假设空间中，存在着一个与训练集一致的假设集合，称为版本空间。