特征工程之构造和筛选

上一篇我们讲解了特征工程中一些数据预处理的内容,现在我们继续了解还有哪些常用的特征工程。

特征工程之数据预处理

特征构造

特征构造是机器学习中提升效果的关键环节之一,特征构造是指利用原始特征,通过一些数学计算变换、统计聚合等方式,创建出更利于模型结果的新特征。常用的特征构造方法有以下几种:

数值特征变换

根据一些数学计算、统计将旧特征转变为新特征。

方法

适用场景

函数

对数转换

处理右偏数据、稳定方差、压缩范围

np.log(x)

分箱

连续数值转为离散值,比如成绩分为优中差

pd.cut(x, bins=5)

标准化

模型对尺度敏感

StandardScaler()

归一化

MinMaxScaler()

代码如下

import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler


df['log_feature'] = np.log(df['feature']) # 对数变换
df['score_category'] = pd.qcut(df['scores'], q=3, labels=False) # 分箱
# 标准化
scaler = StandardScaler()
df['scaled_feature'] = scaler.fit_transform(df[['feature']]) 
# 归一化
scaler = MinMaxScaler(feature_range=(0, 1))
df['scaled_feature'] = scaler.fit_transform(df[['feature']]) 

类别特征构造

类别特征构造是指通过逻辑组合、聚合或者一些高级的映射关系,将原始离散特征组合成可以表达出特征之间的相互关系、业务规则的新特征。从而提升模型的泛化能力和可解释性。

方法

说明

交叉特征

将两个或多个特征拼接形成新特征。比如 地区+商品

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学习中的数据喵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值