- 数据类型:定量、定性
- 属性是对象的性质、特征,测量标度是将数值或符号值与对象的属性相关联的规则(函数)
- 属性类型:属性的性质不必与用来度量他的值的性质相同
- 属性的不同:相异性、序、加法、乘法
- 四种属性类型:标称和序数(分类的、定性的)、区间和比率(数值的、定量的);非对称属性:如果属性值具有相同的权重,则为对称的;反之,为非对称的
- 数据集的类型:
- 数据集的特征:维度、稀疏性、分辨率
- 记录数据:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵
- 基于图形的数据
- 有序数据:时序数据、序列数据、时间序列数据(考虑时间自相关,时间接近数据接近)、空间数据
- 数据质量
- 数据清洗:测量误差与数据收集误差、噪声、伪像(确定的错误的结果)
- 精度、标准差
- 偏倚:样本与总体参数之差
- 精确度:测量值与实际值之间的接近度
- 离群点:不同于噪音,本身是合法的,有时作为研究对象
- 遗漏值
- 不一致的值
- 重复数据:去重复
- 关于应用:数据的时效性、相关性(是否包含了足够的信息,抽样偏倚)、关于数据的说明文档
- 聚集:将多个对象合并为单个对象;定量属性求和或平均值聚集,定性属性可以忽略或汇总成一个集合;聚集可以归纳成小数据集,算法开销小;
- 抽样:抽取有代表性的样本(近似的具有与原数据集相同的性质);渐次抽样:合适的样本量很难确定,从一个小样本开始,增加样本量直到足够容量的样本
- 维归约:
- 将旧属性合并在一起得到新属性;
- 维灾难:维度增加,数据在空间中变得稀疏,使分类、聚类质量下降
- 维归约的线性代数技术:主成分分析PCA、principal component

本文探讨了数据的类型,如定量与定性,并详细介绍了属性的不同度量方式,包括标称、序数、区间和比率。接着讨论了数据集的特性、数据质量与清洗,强调了离群点、遗漏值和重复数据的处理。此外,文章还涵盖了维归约、特征选择和变量变换,特别是邻近度和相似度度量在数据挖掘中的重要性,如距离度量、相似度度量以及如何处理不同尺度和类型的属性。

716

被折叠的 条评论
为什么被折叠?



