小技巧1:如何使用map对某些列做特征工程?
先生成数据:
d = {
"gender":["male", "female", "male","female"],
"color":["red", "green", "blue","green"],
"age":[25, 30, 15, 32]
}
df = pd.DataFrame(d)
df

在 gender 列上,使用 map 方法,快速完成如下映射:
d = {"male": 0, "female": 1}
df["gender2"] = df["gender"].map(d)

小技巧2:使用 replace 和正则清洗数据
Pandas 的强项在于数据分析,自然就少不了数据清洗。
一个快速清洗数据的小技巧,在某列上使用 replace 方法和正则,快速完成值的清洗。
源数据:
d = {"customer": ["A", "B", "C", "D"],
"sales":[1100, "950.5RMB", "$400", " $1250.75"]}
df = pd.DataFrame(d)
df
打印结果:
customer sales
0 A 1100
1 B 950.5RMB
2 C $400
3 D $1250.75
看到 sales 列的值,有整型,浮点型+RMB后变为字符串型,还有美元+整型,美元+浮点型。
我们的目标:清洗掉 RMB,$ 符号,转化这一列为浮点型。
一行代码搞定:(点击代码区域,向右滑动,查看完整代码)

本文分享了Pandas数据处理的五个实用技巧:1. 使用map进行特征工程;2. 结合replace和正则表达式清洗数据;3. 利用melt进行数据透视分析;4. 通过year和dayofyear转换为datetime;5. 将低频分类归为'others'。

1813

被折叠的 条评论
为什么被折叠?



