PySpark - DataFrame的基本操作(笔记：20221205更新版)

原创

已于 2022-12-05 00:48:04 修改 · 6.5k 阅读

标签

#spark

于 2020-08-22 22:49:34 首次发布

PySpark - DataFrame的基本操作

连接spark
1、添加数据
- 1.1、createDataFrame(): 创建空dataframe
- 1.2、createDataFrame() : 创建一个spark数据框
- 1.3、toDF() : 创建一个spark数据框
- 1.4、withColumn(): 新增数据列
2、修改数据
- 2.1、withColumn(): 修改原有数据框中某一列的值（统一修改）
- 2.2、cast() 和 astype(): 修改列的类型（类型投射）
- 2.3、withColumnRenamed(): 修改列名
- 2.4、fillna(): 填充NA
- 2.5、replace(): 全局替换
3、查询数据
- 3.1、行数据查询操作
- 3.2、列元素操作
4、提取数据
- 4.1、将dataframe转为字典
- 4.2、将dataframe的某一列转化为list
- 4.3、过滤数据 : filter和where方法的效果相同
- 4.4、对null或者NaN数据进行过滤
- 4.5、between(): 查询数据是否在某个区间
5、删除数据
- 5.1、drop(): 删除某一列
- 5.2、na.drop() 或 dropna(): 删除任何包含na的行
6、合并数据
- 6.1、横向拼接 : union()
- 6.2、unionByName(): 根据列名横向拼接
- 6.3、纵向拼接:join()
- 6.4、求差集 : subtract()
- 6.5、求交集 : intersect()
- 6.6、cube()与rollup(): 多维聚合
7、统计数据
- 7.1、交叉统计 : crosstab()
- 7.2、分组统计 : groupBy()
- 7.3、应用于多个函数
8、格式转换
- 8.1、pandas.DtataFrame 与 Spark.DataFrame两者互相转换
- 8.2、Spark.DataFrame与Koalas.DataFrame两者互相转换
- 8.3、spark.DataFrame与RDD两者相互转换
9、SQL操作
- 9.1、createOrReplaceTempView()：创建临时视图
- 9.2、正常的查询语句
- 9.3、转换某一列的时间格式
10、读写数据
- 10.1、spark.DataFrame与csv文件的相互转换
- 10.2、spark.DataFrame与parquet文件的相互转换

ps: 笔记：20221205更新版

连接spark

ps：我使用的是单机版spark3.0版本

import socket
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
import pandas as pd

localIpAddress = socket.gethostbyname(socket.gethostname())

# 创建Spark配置
sparkConf = SparkConf()

# 初始化我们的Spark集群，这实际上会生成工作节点。
spark = SparkSession.builder.config(conf=sparkConf).getOrCreate()
sc = spark.sparkContext
sqlContext = SQLContext(sc)
spark

在这里插入图片描述

1、添加数据

创建spark的数据框有这么两种常规的新建数据方式：
①.createDataFrame ()
②.toDF()

1.1、createDataFrame(): 创建空dataframe

from pyspark.sql.types import *

schema = StructType([
        StructField("user_id", StringType(), True),
        StructField("name", StringType(), True),
        StructField("age", IntegerType(), True),
        StructField("score", FloatType(), True)
])
empty_dataframes = spark.createDataFrame(spark.sparkContext.emptyRDD(), schema)

在这里插入图片描述

1.2、createDataFrame() : 创建一个spark数据框

sdf = sqlContext.createDataFrame([("a1", "小明", 12, 56.5), ("a2", "小红", 15, 23.0),\
                                 ("a3", "小强", 23, 84.0), ("a3","小小",9,93.5)],\
                                 ("user_id", "name", "age", "score"))

在这里插入图片描述

1.3、toDF() : 创建一个spark数据框

from pyspark.sql import Row

row = Row("user_id","name","age","score")
row_user_id = ['a1','a2','a3','a4']
row_name = ['小明','小红','小强','小小']
row_age = [12,15,23,9]
row_score = [56.5,23.0,84.0,93.5]

sdf1 = sc.parallelize([row(row_user_id[i],row_name[i],row_age[i],row_score[i]) for i in range(len(row))]).toDF()

在这里插入图片描述

1.4、withColumn(): 新增数据列

withColumn是通过添加或替换与现有列有相同的名字的列，返回一个新的DataFrame

sdf2 = sdf1.withColumn('score_new',sdf1.score/2.0)

在这里插入图片描述

如果不想在原有列的基础上添加新的列，而是添加一列全新的，不同于原有数据框的列，可以考虑join()函数

import numpy as np
sdf3 = sqlContext.createDataFrame([("a1",3.0), ("a2",3.0), ("a3",np.nan)], ("user_id_class", "class"))

在这里插入图片描述

sdf4 = sdf2.join(sdf3,sdf2.user_id==sdf3.user_id_class,'left').drop('user_id_class')

在这里插入图片描述

2、修改数据

2.1、withColumn(): 修改原有数据框中某一列的值（统一修改）

sdf5 = sdf4.withColumn('score_new',sdf4.score_new/2)

在这里插入图片描述

2.2、cast() 和 astype(): 修改列的类型（类型投射）

sdf6 = sdf4.withColumn('score_new',sdf4.score_new.cast("Int"))

在这里插入图片描述

sdf6 = sdf4.withColumn('age',sdf4.age.astype("Float"))

在这里插入图片描述

2.3、withColumnRenamed(): 修改列名

sdf6 = sdf6.withColumnRenamed("score_new","new_score")

在这里插入图片描述

2.4、fillna(): 填充NA

sdf6.fillna(-1)

在这里插入图片描述

2.5、replace(): 全局替换

sdf7 = sdf6.replace("小小", "大大")

在这里插入图片描述

3、查询数据

3.1、行数据查询操作

3.1.1、show(): 可用int类型指定要打印的行数

sdf.show(5)

在这里插入图片描述

3.1.2、dtypes(): 查看dataframe中每一列的类型

最低0.47元/天解锁文章