Python学习基础07-函式库

最新推荐文章于 2026-06-19 17:00:49 发布

原创最新推荐文章于 2026-06-19 17:00:49 发布 · 363 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #学习 #开发语言

基本概念与重要性：NumPy 是 Python 科学计算的基础库，提供高效的数组和矩阵支持，数组元素类型同质且处理速度快、内存占用少，支持多维数据处理，在科学计算、数据分析等领域广泛应用，是管理大型数据集的关键工具。
数组操作
- 创建与属性：可从 Python 列表创建，如np.array([1, 2, 3])，也可使用内置函数创建特定数组（如np.zeros、np.ones），数组属性包括维度、形状、数据类型等。
- 数学运算：简化数组数学运算，提供大量数学函数，支持逐元素操作，如数组相加array1 + array2、相乘array1 * array2，以及求平均值np.mean(array1)等。
- 切片与索引：切片用于提取数组特定部分，如arr[1:4]；索引用于访问单个元素，如arr[2]。
- 聚合函数：执行操作产生单一聚合值，如np.sum(arr)计算数组总和。
- 广播：允许对不同形状数组进行操作，自动扩展较小数组以匹配较大数组形状，如arr * scalar（arr为数组，scalar为标量）。

功能与用途：Pandas 是强大的 Python 数据操作和分析库，提供用于存储大型数据集的数据结构及相关工具，可处理多种文件格式（CSV、Excel、SQL 等）的数据导入，擅长数据清理、准备和分析，能处理缺失数据、过滤、分组、合并、透视和可视化等操作。
数据结构
- 数据框（DataFrames）：类似二维表格（如电子表格或 SQL 表），由行和列组成，通过pd.DataFrame创建，如pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})。
- 系列（Series）：是一维标记数组，类似列表但元素有标签，通过pd.Series创建，如pd.Series(['apple', 'banana'], name='Fruit')。

数据选择与过滤
- 重要性：数据操作是数据分析关键步骤，数据过滤可聚焦重要数据，简化复杂数据集，提高分析效率。
- 方法：loc[]基于标签选择数据，如df.loc[df['Age'] > 25]；iloc[]基于整数位置选择，如df.iloc[1:3]；条件索引根据条件筛选，如df[df['Name'].str.contains('a', case=False)]。
数据操作与转换
- 方法：apply()对数据应用函数进行转换，如df['Salary'].apply(lambda x: x + 5000)；map()用于映射值，如通过定义映射字典转换数据列df['Grade'].apply(lambda x: grade_map.get(x, x))；groupby()用于分组数据。
处理缺失数据：dropna()删除含缺失数据的行，如df.dropna()；fillna()填充缺失数据，如df.fillna({'Age': 30})；interpolate()进行插值处理，如df.interpolate()。

重要性：数据质量影响分析结果，清理数据确保分析可靠性。
处理重复项：使用duplicated()识别重复记录，drop_duplicates()删除重复项，如df[~df.duplicated()]。
字符串操作与数据转换：清理字符串数据并转换数据类型，如df['ID'].astype(int)将字符串列转换为整数类型，df['Amount'].str.replace('$', '').astype(float)清理并转换货币格式字符串为浮点数类型。

在NumPy的数组操作中，如何处理缺失值？

除了NumPy和Pandas，还有哪些常用的Python数据处理库？

如何在Python中安装和使用第三方库？