【机器学习】基本概念

一.机器学习定义

  • 机器学习是一门从数据中研究算法的科学学科。机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测 。
  • 机器学习流程大致可以分为六个步骤,按照数据流自上而下的顺序排列分别是:场景解析、数据预处理、特征工程、模型训练、模型评估、离线/在线服务。

二.基本概念

  1. 数据集:所要研究的数据的集合。
  2. 数据集的分类: 训练集:a. 训练数据(training data):用于构建模型。b.验证数据(validation data):可选,用于辅助模型构建。
  3. 测试集:测试数据(testing data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合。
  4. 样本(示例):数据集中的一条记录,或者说一个对象。
  5. 特征(属性):对象的属性,如西瓜有3个属性,色泽,根蒂,敲声。
  6. 属性值:很好理解,就是属性的取值。
  7. 特征向量:若把样本放到空间坐标系中,每个样本都对应一个位置,产生的向量叫特征向量。 样本空间:样本所在的坐标系空间。
  8. 维度:每个样本的属性数量,如西瓜样本的维度是3。
  9. 标记:训练集样本的结果信息,比如研究西瓜为了得到它是好瓜还是坏瓜,这里好瓜,坏瓜都是标记。
  10. 标记空间(输出空间):所有标记的集合。
  11. 假设空间:根据训练集的所有属性,可以形成的所有可能的模型的集合叫做“假设空间”。
  12. 版本空间:在假设空间中,存在着一个与训练集一致的假设集合,称为版本空间。

三.机器学习的分类

按照训练数据有无标签,可以将机器学习分为监督学习和无监督学习。

1.监督学习

  • 定义:根
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值