spark实现用窗口函数进行去重计数的功能

最新推荐文章于 2026-02-01 17:20:15 发布

原创最新推荐文章于 2026-02-01 17:20:15 发布 · 2.6k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#窗口函数 #去重计数

收录于

Spark 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种使用SQL窗口函数结合collect_set进行数据去重并计数的方法，适用于处理需要去除重复元素的场景，如在DataFrame中应用。通过示例代码展示如何在Spark或Hive中实现这一功能。

//collect_set去除重复元素；collect_list不去除重复元素
df.withColumn(
   "new_col_name",
   size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))
)
//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能