王茂霖:数据挖掘提分三板斧!

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

作者:王茂霖,华中科技大学,Datawhale成员

内容概括

数据挖掘提分三板斧:

1.金斧-数据清洗和特征工程

2.银斧-模型参数调节

3.铜斧-模型集成

PPT下载:后台回复“210406”可获取

视频地址:https://www.bilibili.com/video/BV1MU4y1h75G

数据清洗和特征工程

一、关于数据清洗

1.缺失值处理:

2.异常值处理:

数据清洗-数据分桶

3.数据分桶:

4.数据标准化:在不同的问题中,标准化的意义不同

(1)在回归预测中,标准化是为了让特征值有均等的权重;

(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

(3)主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。

数据清洗的示例:

二、关于特征工程

1.特征构造:

2.特征选择:

特征工程的示例:

模型参数调节

一、关于建模调参

1.理解模型

2.性能验证

3.模型调参

模型集成

一、关于模型集成

1.加权融合

2.Boosting/Bagging

3.Stacking/Blending

模型集成示例:

本文作者

王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。

参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。

分享地址

  • 复制链接打开(或阅读原文)

  • https://www.bilibili.com/video/BV1MU4y1h75G

整理不易,三连

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值