数据预处理概述
数据预处理 data preprocessing
– 在主要的处理以前对数据进行的一些处理
– 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理
数据预处理形式

其他可能需要数据预处理的情况
– 数据的压缩存储
– 数据形式的转换
– 数据内容的筛选和梳理
例子

预处理方法 ★
数据清理 数据集成与变换 数据归约 离散化和概念分层
1、数据清理
现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
具体方法:
遗漏值
– 忽略元组– 人工填写遗漏值
– 使用一个全局常量填充遗漏值
– 使用属性的平均值填充遗漏值
– 使用与给定元组属同一类的所有样本的平均值
– 使用最可能的值填充遗漏值
噪音数据
– 噪音是测量变量的随机错误或偏差
– 去除噪音需要数据平滑技术
• 分箱
• 聚类
• 计算机和人工检查结合
• 回归
不一致数据</

数据预处理是提升数据挖掘质量的关键步骤,包括数据清理、数据集成、数据变换、数据归约和离散化。数据清理涉及处理遗漏值、噪音数据和不一致数据;数据集成关注数据相关性;数据变换通过规范化、数据泛化等手段改善数据;数据归约通过属性选择降低数据复杂性;离散化和概念分层则用于减少属性值并转化数据类型。TF-IDF算法用于提取文章的代表性关键词。

1万+

被折叠的 条评论
为什么被折叠?



