//collect_set去除重复元素;collect_list不去除重复元素
df.withColumn(
"new_col_name",
size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))
)
//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能
spark实现用窗口函数进行去重计数的功能
最新推荐文章于 2026-02-01 17:20:15 发布
本文介绍了一种使用SQL窗口函数结合collect_set进行数据去重并计数的方法,适用于处理需要去除重复元素的场景,如在DataFrame中应用。通过示例代码展示如何在Spark或Hive中实现这一功能。

1454

被折叠的 条评论
为什么被折叠?



