缺失值处理
-
判断
data
ts_code symbol name area industry list_date
0 000001.SZ 1.0 平安银行 深圳 银行 19910403
1 000002.SZ NaN 万科A 深圳 全国地产 19910129
2 000004.SZ 4.0 ST国华 NaN 软件服务 19910114
3 000005.SZ 5.0 ST星源 深圳 环境保护 19901210
data.isna()
ts_code symbol name area industry list_date
0 False False False False False False
1 False True False False False False
2 False False False True False False
3 False False False False False False
data.isna()["area"]
0 False
1 False
2 True
3 False
Name: area, dtype: bool
data["area"].isna()
0 False
1 False
2 True
3 False
Name: area, dtype: bool
-
填充(替换)
data.fillna("-999")
ts_code symbol name area industry list_date
0 000001.SZ 1.0 平安银行 深圳 银行 19910403
1 000002.SZ -999 万科A 深圳 全国地产 19910129
2 000004.SZ 4.0 ST国华 -999 软件服务 19910114
3 000005.SZ 5.0 ST星源 深圳 环境保护 19901210
data["area"].fillna("-999")
0 深圳
1 深圳
2 -999
3 深圳
Name: area, dtype: object
data["area"] = data["area"].fillna("-999")
data
ts_code symbol name area industry list_date
0 000001.SZ 1.0 平安银行 深圳 银行 19910403
1 000002.SZ NaN 万科A 深圳 全国地产 19910129
2 000004.SZ 4.0 ST国华 -999 软件服务 19910114
3 000005.SZ 5.0 ST星源 深圳 环境保护 19901210
-
删除
data.dropna()
ts_code symbol name area industry list_date
0 000001.SZ 1.0 平安银行 深圳 银行 19910403
3 000005.SZ 5.0 ST星源 深圳 环境保护 19901210
data["area"].isna()
0 False
1 False
2 True
3 False
Name: area, dtype: bool
data[~data["area"].isna()]
ts_code symbol name area industry list_date
0 000001.SZ 1.0 平安银行 深圳 银行 19910403
1 000002.SZ NaN 万科A 深圳 全国地产 19910129
3 000005.SZ 5.0 ST星源 深圳 环境保护 19901210
本文介绍了数据处理中常见的三种缺失值处理方式:判断、填充和删除。通过示例展示了如何使用Python的Pandas库进行操作,包括使用`isna()`检查缺失值,用`fillna()`填充缺失值,以及利用`dropna()`删除含有缺失值的行。这些方法对于数据预处理和保持数据质量至关重要。

1796

被折叠的 条评论
为什么被折叠?



