PySpark 操作函数一览

最新推荐文章于 2024-11-20 15:28:00 发布

原创

最新推荐文章于 2024-11-20 15:28:00 发布 · 2.4k 阅读

·

5

·

标签

#hive #spark #hadoop

本文详细介绍了PySpark中用于处理数据的函数，包括Pyspark.sql.functions模块的基本数学函数、特定类型如日期、字符、二进制、角度、数字及判断函数，以及统计计算和列处理函数。此外，还提到了Pyspark.sql.types中的基础数据类型和叠加类型。

PySpark 操作函数一览

Created: Sep 14, 2020 10:28 AM
Tags: Big Data, PySpark, Python, Spark

cover

Pyspark.sql.functions

from pyspark.sql import functions as F

函数使用说明

基本数学函数类

abs
sin、cos、tan、asin、acos 、atan、sinh、cosh、tanh
ceil、round、floor
exp、log、log2、pow、sqrt、cbrt
factorial

特定类型

日期

current_date、current_timestamp、add_months、unix_timestamp

df = spark.createDataFrame([('2015-04-08',)], ['dt']
df.select(F.add_months(df.dt, 1).alias('next_month'))

""""
+----------+
|next_month|
+----------+
|2015-05-08|
+----------+
"""

add_months、date_add、date_format、date_sub、date_trunc、date_diff
dayofmonth、dayofweek、dayofyear、weekofyear
hour、last_day、minute、month、months_between、next_day、year

字符

ascii、substring、substring_index
base64、unbase64
decode、encode
expr、conv
format_string
length
lower、upper
reverse
size

Binary

bin、bitwiseNOT、
hash、md5、sha1、sha2
hex、unhex

角度

toDegrees、toRadians、radians

数字

format_number

判断

isnan、isnull

统计计算

avg、corr、count、countDistinct、cume_dist
greatest、kurtosis、variance
max、min、mean、rand、randn、rank
skewness、sum、sumDistinct

数组处理

flatten、slice、element_at、array_contains、array_distinct、array_except、array_intersect、array_join、array_max、array_min、array_position、array_remove、array_repeat、array_sort、array_union、arrays_overlap、arrays_zip

# 数组列包含元素
df = spark.createDataFrame([(["a", "b", "c"],), ([],)], ['data'])
df.withColumn("array_contains", F.array_contains(df.data, "a")).show()

"""
+---------+--------------+
|     data|array_contains|
+---------+--------------+
|[a, b, c]|          true|
|       []|         false|
+---------+--------------+
"""

数组函数说明

df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
df.show()
df_new = df.select(F.arrays_zip(df.vals1, df.vals2).

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。