【小贪】大数据处理：Pyspark, Pandas对比及常用语法

原创

已于 2024-04-17 08:22:56 修改 · 1k 阅读

标签

#python #大数据处理 #Pyspark #Pandas

于 2024-04-16 16:18:27 首次发布

近期致力于总结科研或者工作中用到的主要技术栈，从技术原理到常用语法，这次查缺补漏当作我的小百科。主要技术包括：

✅数据库常用：MySQL, Hive SQL, Spark SQL
✅大数据处理常用：Pyspark, Pandas
⚪ 图像处理常用：OpenCV, matplotlib
⚪ 机器学习常用：SciPy, Sklearn
⚪ 深度学习常用：Pytorch, numpy
⚪ 常用数据结构语法糖：itertools, collections
⚪ 常用命令: Shell, Git, Vim

以下整理错误或者缺少的部分欢迎指正！！！

大数据处理常用：Pyspark, Pandas

性能对比

	Pyspark	Pandas
运行环境	分布式计算集群（Hadoop/Apache Spark集群）	单个计算机
数据规模	亿级大规模	百万级小规模
优势	分布式计算->并行处理，处理速度快	API简单->数据处理简单
延迟机制	lazy execution, 执行动作之前不执行任务	eager execution, 任务立即被执行
内存缓存	persist()/cache()将转换的RDDs保存在内存	单机缓存
DataFrame可变性	不可变，修改则返回一个新的DataFrame	可变
可扩展性	好	差
列名允许重复	✓	×

常用语法对比

# 头文件
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import StructType, StructField, LongType, StringType, ArrayType  # 或者直接导入*
import pandas as pd


# 创建SparkSession对象
spark = SparkSession.builder \
    .appName("username") \
    .getOrCreate()


# 创建空表
schema = StructType([
                StructField('id', LongType()),
                StructField('type', StringType()),
            ])  # spark需要指定列名和类型
spark_df = spark.createDataFrame(spark.sparkContext.emptyRDD(), schema=schema)
pandas_df = pd.DataFrame(columns=['id', 'type'], index=[0, 1, 2])


# 根据现有数据创建
data = [(1, "Alice", 2000), (2, "Bob", 2001), (3, "Charlie", 2002)]
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("birth_year", IntegerType(), True)
])
spark_df = spark.createDataFrame(data, ["id", "name", "birth_year"])
spark_df = spark.createDataFrame(data, schema)
pandas_df = pd.DataFrame(data=data, columns=["id", "name", "birth_year"])


# 读取csv文件
spark_df = spark.read.csv("data.csv", header=True, inferSchema=True)
pandas_df = pd.read_csv("data.csv", sep="\t")  # read_excel
# 保存数据到csv
spark_df.write.csv('data.csv', header

最低0.47元/天解锁文章