1. NumPy 简介
- 基本概念与重要性:NumPy 是 Python 科学计算的基础库,提供高效的数组和矩阵支持,数组元素类型同质且处理速度快、内存占用少,支持多维数据处理,在科学计算、数据分析等领域广泛应用,是管理大型数据集的关键工具。
- 数组操作
- 创建与属性:可从 Python 列表创建,如
np.array([1, 2, 3]),也可使用内置函数创建特定数组(如np.zeros、np.ones),数组属性包括维度、形状、数据类型等。 - 数学运算:简化数组数学运算,提供大量数学函数,支持逐元素操作,如数组相加
array1 + array2、相乘array1 * array2,以及求平均值np.mean(array1)等。 - 切片与索引:切片用于提取数组特定部分,如
arr[1:4];索引用于访问单个元素,如arr[2]。 - 聚合函数:执行操作产生单一聚合值,如
np.sum(arr)计算数组总和。 - 广播:允许对不同形状数组进行操作,自动扩展较小数组以匹配较大数组形状,如
arr * scalar(arr为数组,scalar为标量)。
- 创建与属性:可从 Python 列表创建,如
2. Pandas 简介
- 功能与用途:Pandas 是强大的 Python 数据操作和分析库,提供用于存储大型数据集的数据结构及相关工具,可处理多种文件格式(CSV、Excel、SQL 等)的数据导入,擅长数据清理、准备和分析,能处理缺失数据、过滤、分组、合并、透视和可视化等操作。
- 数据结构
- 数据框(DataFrames):类似二维表格(如电子表格或 SQL 表),由行和列组成,通过
pd.DataFrame创建,如pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})。 - 系列(Series):是一维标记数组,类似列表但元素有标签,通过
pd.Series创建,如pd.Series(['apple', 'banana'], name='Fruit')。
- 数据框(DataFrames):类似二维表格(如电子表格或 SQL 表),由行和列组成,通过
3. 使用 Pandas 进行数据操作
- 数据选择与过滤
- 重要性:数据操作是数据分析关键步骤,数据过滤可聚焦重要数据,简化复杂数据集,提高分析效率。
- 方法:
loc[]基于标签选择数据,如df.loc[df['Age'] > 25];iloc[]基于整数位置选择,如df.iloc[1:3];条件索引根据条件筛选,如df[df['Name'].str.contains('a', case=False)]。
- 数据操作与转换
- 方法:
apply()对数据应用函数进行转换,如df['Salary'].apply(lambda x: x + 5000);map()用于映射值,如通过定义映射字典转换数据列df['Grade'].apply(lambda x: grade_map.get(x, x));groupby()用于分组数据。
- 方法:
- 处理缺失数据:
dropna()删除含缺失数据的行,如df.dropna();fillna()填充缺失数据,如df.fillna({'Age': 30});interpolate()进行插值处理,如df.interpolate()。
4. Pandas 数据清理与准备
- 重要性:数据质量影响分析结果,清理数据确保分析可靠性。
- 处理重复项:使用
duplicated()识别重复记录,drop_duplicates()删除重复项,如df[~df.duplicated()]。 - 字符串操作与数据转换:清理字符串数据并转换数据类型,如
df['ID'].astype(int)将字符串列转换为整数类型,df['Amount'].str.replace('$', '').astype(float)清理并转换货币格式字符串为浮点数类型。
在NumPy的数组操作中,如何处理缺失值?
除了NumPy和Pandas,还有哪些常用的Python数据处理库?
如何在Python中安装和使用第三方库?
305

被折叠的 条评论
为什么被折叠?



