Python学习基础07-函式库

1. NumPy 简介

  • 基本概念与重要性:NumPy 是 Python 科学计算的基础库,提供高效的数组和矩阵支持,数组元素类型同质且处理速度快、内存占用少,支持多维数据处理,在科学计算、数据分析等领域广泛应用,是管理大型数据集的关键工具。
  • 数组操作
    • 创建与属性:可从 Python 列表创建,如np.array([1, 2, 3]),也可使用内置函数创建特定数组(如np.zerosnp.ones),数组属性包括维度、形状、数据类型等。
    • 数学运算:简化数组数学运算,提供大量数学函数,支持逐元素操作,如数组相加array1 + array2、相乘array1 * array2,以及求平均值np.mean(array1)等。
    • 切片与索引:切片用于提取数组特定部分,如arr[1:4];索引用于访问单个元素,如arr[2]
    • 聚合函数:执行操作产生单一聚合值,如np.sum(arr)计算数组总和。
    • 广播:允许对不同形状数组进行操作,自动扩展较小数组以匹配较大数组形状,如arr * scalararr为数组,scalar为标量)。

2. Pandas 简介

  • 功能与用途:Pandas 是强大的 Python 数据操作和分析库,提供用于存储大型数据集的数据结构及相关工具,可处理多种文件格式(CSV、Excel、SQL 等)的数据导入,擅长数据清理、准备和分析,能处理缺失数据、过滤、分组、合并、透视和可视化等操作。
  • 数据结构
    • 数据框(DataFrames):类似二维表格(如电子表格或 SQL 表),由行和列组成,通过pd.DataFrame创建,如pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
    • 系列(Series):是一维标记数组,类似列表但元素有标签,通过pd.Series创建,如pd.Series(['apple', 'banana'], name='Fruit')

3. 使用 Pandas 进行数据操作

  • 数据选择与过滤
    • 重要性:数据操作是数据分析关键步骤,数据过滤可聚焦重要数据,简化复杂数据集,提高分析效率。
    • 方法loc[]基于标签选择数据,如df.loc[df['Age'] > 25]iloc[]基于整数位置选择,如df.iloc[1:3];条件索引根据条件筛选,如df[df['Name'].str.contains('a', case=False)]
  • 数据操作与转换
    • 方法apply()对数据应用函数进行转换,如df['Salary'].apply(lambda x: x + 5000)map()用于映射值,如通过定义映射字典转换数据列df['Grade'].apply(lambda x: grade_map.get(x, x))groupby()用于分组数据。
  • 处理缺失数据dropna()删除含缺失数据的行,如df.dropna()fillna()填充缺失数据,如df.fillna({'Age': 30})interpolate()进行插值处理,如df.interpolate()

4. Pandas 数据清理与准备

  • 重要性:数据质量影响分析结果,清理数据确保分析可靠性。
  • 处理重复项:使用duplicated()识别重复记录,drop_duplicates()删除重复项,如df[~df.duplicated()]
  • 字符串操作与数据转换:清理字符串数据并转换数据类型,如df['ID'].astype(int)将字符串列转换为整数类型,df['Amount'].str.replace('$', '').astype(float)清理并转换货币格式字符串为浮点数类型。

在NumPy的数组操作中,如何处理缺失值?

除了NumPy和Pandas,还有哪些常用的Python数据处理库?

如何在Python中安装和使用第三方库?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值