Pandas中常见的缺失值处理,46张图详解 | 图解Pandas-图文第9篇

本文是《图解Pandas》系列的第九篇,详细介绍了Pandas中缺失值的处理,包括Python环境、创建数据以及缺失值的类型。通过实例展示了如何在数据框中处理NA值,并探讨了四种不同类型的缺失值。
Python3.8

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

01写在前面

大家好,我是阳哥,欢迎来到「Python数据之道」。

今天来跟大家分享《图解Pandas》系列图文内容的 第 9 篇,主要介绍 Pandas 中常见的缺失值数据处理

本文是付费阅读文章,付费阅读内容包括《图解Pandas》图文干货内容、可以在电脑端观看的高清视频以及配套的源代码等。

此外,为避免各种不必要的麻烦,微信没有退款机制,付费前请谨慎。

Pandas 是 Python数据分析中用的最多的工具,为了大家能够更好地学习 Pandas,阳哥开始制作一系列 《图解Pandas》 的内容。

《图解Pandas》 最主要的目标,是以视频图解、动态图片等方式呈现,拆解 Pandas 在数据处理过程中的主要知识点,以便大家能进一步了解 Pandas 的使用,形象地介绍 Pandas,进而使大家喜欢上 Pandas 这个工具。

《图解Pandas》图文专题,最新的内容可以点击下面的图片进行查看。

0ae22dc7df106dbd78e62f9de80f885c.jpeg

在本文编写时,《图解Pandas》系列已发布的图文如下:

图文链接视频号对应编号
《图解Pandas》内容框架介绍-
图文01-数据结构介绍001
图文02-创建数据对象002
图文03-读取和存储Excel文件003、004
图文04-常见的数据访问005
图文05-常见的数据运算006-008
图文06-常见的数学计算009、010
图文07-常见的数据统计011-015
图文08-常见的数据筛选016-028

本次主要介绍 Pandas 中常见的缺失值数据处理 ,内容框架如下:

1ee134d8a3cad6378b28461fda6af7f4.jpeg
主要内容

该主题包括 6 期视频,在微信视频号「Python数据之道」中发布的对应视频编号为 029034,大家可以前往观看:

注:本文发布时,在视频号中可以观看视频 029,后续将发布 030034

在本文后面内容中可以同时观看高清版视频 029034

扫描下面的二维码,关注视频号,可以观看《图解Pandas》已发布的所有视频以及及时推送最新的视频:

5eee17e5833f4aff273dc9f817386630.jpeg

02常见的缺失值数据处理

Python环境

开始之前,按照惯例先介绍下本次内容涉及的Python环境,如下:

  • Python 3.8

  • Pandas 1.4.1

  • numpy 1.22.3

我是在 jupyter notebook 中运行代码的,首先引入相关 Python 库:

import pandas as pd
import numpy as np

print(f'pandas version:{pd.__version__}')
print(f'numpy version:{np.__version__}')

# pandas version:1.4.1
# numpy version:1.22.3

创建数据

咱们先来创建一个dataframe,也就是“数据框”。

关于创建数据对象的详细介绍,大家可以观看 「图解Pandas」系列的第2期视频

创建 df 如下:

df = pd.DataFrame(
    [
        [3, 8, 31],
        [np.nan, np.nan, 2],
        [np.nan, np.nan, np.nan],
        [10, 1, np.nan],
        [5,8,12]
    ],
    columns=list("abc"),
)
df
33d3e18f1116881be59bdcba76d317dc.jpeg

来看看数据框 “df” 的数据结构,为 5 行 3 列,数值类型包括 NA值和整型。后续,会根据需要在该数据框的基础上,创建其他的一些数据框。

在内容介绍过程中,主要是针对数据框介绍各种方法的应用。同时,也需要知道,其中有不少方法,对于 Series 也是适用的。

缺失值类型

咱们先来了解缺失值的类型,也就是在 Pandas 中,哪些数值类型可以作为NA值来处理。

总的来说,在 Pandas 中有4中类型的缺失值:

c058f5a8b2295ed00126cd7402faa299.jpeg

其中,第一种numpy 库中的 nan 值,用代码表述是 np.nannp.NaN

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值