SparkSQL多个count distinct 执行效率优化

        写了一段非常简单的SQL。 数据量级一天大约5千万,拉取的30天的数据,按天 count(distinct)计算一系列指标。原本以为执行的效率会很快,结果发现运行了2h!所有探究其为什么运行慢,以及后续该如何规避这类问题。Spark使用的版本是3.x,SQL示例如下:

    SELECT dt

        , COUNT(DISTINCT a) as uv -- 用户数

        , COUNT(DISTINCT b) as pay_uv_1d

        , ... 类似诸如此类的count distinct 一共有30多个指标

    FROM

    (

        SELECT *

        FROM table

        WHERE dt BETWEEN DATE_SUB('${dt}',29) AND '${dt}'

    ) tmp

    GROUP BY dt

        单个count distinct 和普通的shuffle类型,经历map端预聚合,然后shuffle到reduce端最终聚合的方式,就把最终的结果给统计出来了。

单个count distinct 执行原理:

        

Partial: 局部数据的聚合。会

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值