
Spark SQL是Apache Spark的一个模块,用于处理结构化数据。在数据分析和处理中,聚合和窗口函数是非常重要的工具,它们可以对数据进行各种汇总、计算和分析。本文将深入探讨Spark SQL中的聚合与窗口函数,包括聚合函数、分组操作、窗口函数以及实际用例。
聚合函数
聚合函数是对数据集进行汇总和计算的函数,它们通常与GROUP BY子句一起使用。Spark SQL支持各种内置聚合函数,包括SUM、AVG、MAX、MIN、COUNT等。
1 示例:计算平均工资
假设有一个包含员工信息的表,其中包括员工的姓名、部门和工资。可以使用聚合函数来计算每个部门的平均工资。
SELECT department, AVG(salary) AS avg_salary
FROM employees
GROUP BY department
2 示例:计算总销售额
如果有一个包含销售订单的表,其中包括订单号、销售日期和销售额。可以使用聚合函数来计算每月的总销售额。
SELECT YEAR(sale_date) AS year, MONTH(sale_date) AS month, SUM(sale_amount) AS total_sales
FROM sales
GROUP BY YEAR(sale_date), MONTH(sale_date)


544

被折叠的 条评论
为什么被折叠?



