一.机器学习定义
- 机器学习是一门从数据中研究算法的科学学科。机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测 。
- 机器学习流程大致可以分为六个步骤,按照数据流自上而下的顺序排列分别是:场景解析、数据预处理、特征工程、模型训练、模型评估、离线/在线服务。
二.基本概念
- 数据集:所要研究的数据的集合。
- 数据集的分类: 训练集:a. 训练数据(training data):用于构建模型。b.验证数据(validation data):可选,用于辅助模型构建。
- 测试集:测试数据(testing data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合。
- 样本(示例):数据集中的一条记录,或者说一个对象。
- 特征(属性):对象的属性,如西瓜有3个属性,色泽,根蒂,敲声。
- 属性值:很好理解,就是属性的取值。
- 特征向量:若把样本放到空间坐标系中,每个样本都对应一个位置,产生的向量叫特征向量。 样本空间:样本所在的坐标系空间。
- 维度:每个样本的属性数量,如西瓜样本的维度是3。
- 标记:训练集样本的结果信息,比如研究西瓜为了得到它是好瓜还是坏瓜,这里好瓜,坏瓜都是标记。
- 标记空间(输出空间):所有标记的集合。
- 假设空间:根据训练集的所有属性,可以形成的所有可能的模型的集合叫做“假设空间”。
- 版本空间:在假设空间中,存在着一个与训练集一致的假设集合,称为版本空间。
三.机器学习的分类
按照训练数据有无标签,可以将机器学习分为监督学习和无监督学习。
1.监督学习
- 定义:根


2223

被折叠的 条评论
为什么被折叠?



