原文链接:点击打开链接
1.单列运算
在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作:
[python] view plain copy
- df['col2'] = df['col1'].map(lambda x: x**2)
其中lambda函数中的x代表当前元素。可以使用另外的函数来代替lambda函数,例如:
[python] view plain copy
- define square(x):
- return (x ** 2)
- df['col2'] = df['col1'].map(square)
2.多列运算
要对DataFrame的多个列同时进行运算,可以使用apply,例如col3 = col1 + 2 * col2:
[python] view plain copy
- df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
其中x带表当前行,可以通过下标进行索引。
3.分组运算
可以结合groupby与transform来方便地实现类似SQL中的聚合运算的操作:
[python] view plain copy
- df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())
在transform函数中x.sum()与x.count()与SQL类似,计算的是当前group中的和与数量,还可以将transform的结果作为一个一个映射来使用, 例如:
[python] view plain copy
- sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count())
- df['col1'].map(sumcount)
对col1进行一个map,得到对应的col2的运算值。
4.聚合函数
结合groupby与agg实现SQL中的分组聚合运算操作,需要使用相应的聚合函数:
[python] view plain copy
- df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘’: sum}, 'col2': {'col2_count': count}})
上述代码生成了col1_mean, col1_sum与col2_count列。
本文介绍了使用 Python 的 Pandas 库进行数据处理的几种常见方法,包括单列运算、多列运算、分组运算及聚合函数的应用。这些技巧有助于提高数据分析的效率。
&spm=1001.2101.3001.5002&articleId=80711895&d=1&t=3&u=9f9a498b28074fbf8422110632b956b9)
2156

被折叠的 条评论
为什么被折叠?



