机器学习(周志华) 第一章笔记
Chaper 1 基本概念
1. 基本术语

| 基本术语 | ||
|---|---|---|
| 数据集(data set) | 记录数据的集合 | 西瓜数据集 |
| 样本(sample) | 关于一个事件或对象描述的记录 | |
| 特征(feature) | 反映事件或对象的事项 | 色泽,根蒂,敲声 |
| 样本空间(sample space) | 特征张成的空间 | 以 色泽,根蒂,敲声 为坐标轴、张成的描述西瓜的三维空 |
| 标记(label) | 反映样本的结果 | 是否为好瓜 |
| 标记空间(label space) | 所有标记的集合 | {好瓜,坏瓜} |
2. 数学描述

D={ x1,x2,⋯ ,xm}D = \{\boldsymbol{x_1,x_2,\cdots,x_m}\}D={ x1,x2,⋯,xm} :包含 mmm 个样本的数据集 DDD
X\mathcal{X}X: 样本空间,每个样本由 ddd 个特征描述, ddd 维样本空间 X\mathcal{X}X
xi=(xi1,xi2,⋯ ,xid)\boldsymbol{x_i} = (\boldsymbol{x_{i1},x_{i2},\cdots,x_{id}})xi=(xi1,xi2,⋯,xid) : ddd 维样本空间的一个向量,xi∈Xx_i \in \mathcal{X}xi∈X
xijx_{ij}xij: 样本 xi\boldsymbol{x_i}xi 在第 jjj 个属性上的取值
yiy_iyi : 样本 xix_ixi 的标记 , 不是向量只是一个值
(xi,yi):第i个样例(\boldsymbol{x_i},y_i): 第 i个样例(xi,yi):第i个样例
Y\mathcal{Y}Y : 所有标记的集合, yi∈Yy_i \in \mathcal{Y}yi∈Y
-
二分类任务,通常令 Y={ −1,1}\mathcal{Y} = \{-1,1\}Y={ −1,1} 或 { 0,1}\{0,1\}{ 0,1}
-
多分类任务,Y>2\mathcal{Y} >2Y>2
-
回归任务,Y=R\mathcal{Y} = \mathbb{R}Y=R
3. 学习任务分类

-
根据数据是否有label,学习任务可以划分为:supervised learning, unsupervised learning
-
Supervised learning(label): 若预测的是离散值,为classification; 若预测的为连续值,为regression.
学习目标:建立一个从输入空间/样本空间 X\mathcal{X}X 到 输出空间 Y\mathcal{Y}Y 的映射 f:X↦Yf: \mathcal{X} \mapsto \mathcal{Y}f:X↦


1万+

被折叠的 条评论
为什么被折叠?



