参考的是数据挖掘导论(Pang-Ning Tan、 Michael Steinbach、Vipin Kumar),但是感觉这本书翻译真的好差,完全不是在说人话……结合老师的PPT,所以基本上只摘了PPT中的相关内容。
2.1 数据类型
数据集
数据对象的集合,数据对象用一组刻画对象基本特征的属性描述。
通常,数据集是一个文件,其中对象是文件的记录(Record)(或行),每一个段或列对应一个属性。
2.2.1 属性与度量
1.什么是属性
属性
是对象的性质或特性,它因对象而异,或随时间而变化。
测量标度
是将数值或符号值与对象的属性相关联的规则(函数)。形式上,测量过程是使用一个测量标度将一个值与一个特定对象的特定属性相关联。
2.属性类型
属性的性质不必与用来度量它的值的性质相同,用来代表属性的值可能具有不同于属性本身的性质。
属性的类型告诉我们,属性的哪些性质反映在用于测量它的值中,通常将属性的类型称作测量标度的类型。
3.属性的不同类型
数值的性质
可以根据数值性质来判断属性类型。
- 相异性 =和≠
- 序 <、≤、>、≥
- 加法 +和-
- 乘法 ×和÷
属性类型
| 属性类型 | 描述 | 例子 | 操作 | 性质 |
|---|---|---|---|---|
| 标称(nominal) | 以不同名字或数值区分对象 | 邮政编码、雇员ID、眼球颜色、性别 | 众数、熵、列联相关 | 相异 |
| 序数(ordinal) | 确定对象的序 | 成绩、街道号码 | 中值、百分位、秩相关 | 相异、序 |
| 区间(interval) | 存在测量单位 | 日期、摄氏度 | 均值、标准差 | 相异、序、加法 |
| 比率(ratio) | 差和比率都是有意义的 | 绝对温度、货币量、计数、年龄、质量、长度 | 几何平均、调和平均 | 相异、序、加法、乘法 |
- 赋予标称、序数和区间属性合法的操作,对于比率也合法。
- 标称和序数统称分类(categorical)或定性(qualitative)属性、区间和比率统称为定量(quantitative)或数值(numeric)属性,定量属性可以是离散值或连续值。
保持意义的变换
| 标称(nominal) | 任何一对一变换,如值的排列 |
| 序数(ordinal) | 值的保序变换,即**新值=f(旧值)**其中f是单调函数 |
| 区间(interval) | 新值=a*旧值+b |
| 比率(ratio) | 新值=a*旧值 |
4.用值的个数描述属性
- 离散 离散属性具有有限个值或无限可数个值,是分类的。通常用整数型表示。二元属性是离散属性的特殊情况,只接受两个值。

本文详细介绍了数据挖掘中的数据类型,包括属性、度量、数据集的类型和数据质量。讨论了属性的不同类型,如标称、序数、区间和比率属性,并解释了离散和连续属性的概念。此外,还深入讨论了数据质量,如测量误差、噪声、离群点和遗漏值。最后,提到了数据预处理的重要性,包括聚集、抽样、维规约和特征选择等方法。

3万+

被折叠的 条评论
为什么被折叠?



