Pandas 数据分析 5 个实用小技巧

本文分享了Pandas数据处理的五个实用技巧:1. 使用map进行特征工程;2. 结合replace和正则表达式清洗数据;3. 利用melt进行数据透视分析;4. 通过year和dayofyear转换为datetime;5. 将低频分类归为'others'。

小技巧1:如何使用map对某些列做特征工程?

先生成数据:

d = {
"gender":["male", "female", "male","female"],
"color":["red", "green", "blue","green"],
"age":[25, 30, 15, 32]
}

df = pd.DataFrame(d)
df

在 gender 列上,使用 map 方法,快速完成如下映射:

d = {"male": 0, "female": 1}
df["gender2"] = df["gender"].map(d)

小技巧2:使用 replace 和正则清洗数据

Pandas 的强项在于数据分析,自然就少不了数据清洗。

一个快速清洗数据的小技巧,在某列上使用 replace 方法和正则,快速完成值的清洗。

源数据:

d = {"customer": ["A", "B", "C", "D"],
"sales":[1100, "950.5RMB", "$400", " $1250.75"]}

df = pd.DataFrame(d)
df

打印结果:

customer sales
0 A 1100
1 B 950.5RMB
2 C $400
3 D $1250.75

看到 sales 列的值,有整型,浮点型+RMB后变为字符串型,还有美元+整型,美元+浮点型。

我们的目标:清洗掉 RMB$ 符号,转化这一列为浮点型。

一行代码搞定:(点击代码区域,向右滑动,查看完整代码)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值