【数据挖掘学习笔记】4.数据预处理

最新推荐文章于 2026-04-04 11:39:13 发布

原创

最新推荐文章于 2026-04-04 11:39:13 发布 · 4.1k 阅读

·

3

·

数据预处理是提升数据挖掘质量的关键步骤，包括数据清理、数据集成、数据变换、数据归约和离散化。数据清理涉及处理遗漏值、噪音数据和不一致数据；数据集成关注数据相关性；数据变换通过规范化、数据泛化等手段改善数据；数据归约通过属性选择降低数据复杂性；离散化和概念分层则用于减少属性值并转化数据类型。TF-IDF算法用于提取文章的代表性关键词。

数据预处理概述

数据预处理 data preprocessing
– 在主要的处理以前对数据进行的一些处理
– 现实世界的数据通常无法直接进行数据挖掘，或挖掘结果差强人意，为了提高数据挖掘的质量需要对现实数据进行处理

数据预处理形式

其他可能需要数据预处理的情况
– 数据的压缩存储
– 数据形式的转换
– 数据内容的筛选和梳理

例子

预处理方法 ★

数据清理数据集成与变换数据归约离散化和概念分层

1、数据清理

现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值，识别局外者、消除噪音，并纠正数据中的不一致。

具体方法：

遗漏值

– 忽略元组
– 人工填写遗漏值
– 使用一个全局常量填充遗漏值
– 使用属性的平均值填充遗漏值
– 使用与给定元组属同一类的所有样本的平均值
– 使用最可能的值填充遗漏值

噪音数据
– 噪音是测量变量的随机错误或偏差
– 去除噪音需要数据平滑技术
• 分箱
• 聚类
• 计算机和人工检查结合
• 回归

不一致数据</

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。