MaxCompute和hive都支持使用QUALIFY语法对窗口函数的数据进行过滤,该语法类似于HAVING对聚合和GROUP BY之后的结果的处理。这个语法在很多场景中都可以用到,可以用于简化代码,少写一个子查询,如统计排名,分组内部排序等。
QUALIFY语法后至少要跟一个窗口函数,并且允许使用窗口列的别名来过滤数据。
如:
SELECT column1, column2, ..., columnN
,Row_Number() OVER (PARTITION BY partition_columns ORDER BY sort_columns) as rn
FROM table_name
QUALIFY rn = 1;
该代码效果等同于:(区别仅是上面代码多一个rn列,下面代码没有rn列)
SELECT column1, column2, ..., columnN
FROM table_name
QUALIFY Row_Number() OVER (PARTITION BY partition_columns ORDER BY sort_columns) = 1;
如果不使用QUALIFY语法则需要:
SELECT * FROM (
SELECT column1, column2, ..., columnN
,Row_Number() OVER (PARTITION BY partition_columns ORDER BY sort_columns) as rn
FROM table_name
) t
WHERE rn = 1;
很明显可以看出,相比于直接使用row_number排序后通过子查询过滤数据来说,通过
QUALIFY语法可以至少帮助我们少写2行代码和一个子查询。

本文介绍了MaxCompute和Hive中如何使用QUALIFY语法对窗口函数后的数据进行过滤,它可减少子查询和代码行数,提升代码效率,特别适用于统计排名和分组内部排序等场景。


2558

被折叠的 条评论
为什么被折叠?



