数据指标异常波动归因分析是产品运营以及数据分析相关岗位日常工作中较为常见的问题,及时监控核心指标异常波动并预警,有助于业务快速定位和发现问题(归因分析),或者捕捉业务异动信息,把握市场机会。建立完善的指标异常监控与归因方案,能够提高监控和归因的效率和准确性
1 数据指标监控与异动归因分析
1.1 什么是“指标异动归因分析”
在日常工作中,经常会有领导或同事问:
为什么这个月的收件成功率下降了,什么原因导致?
为什么客均交易额下降了,什么原因导致?
为什么线上申卡的填表转化率下降了,什么原因导致?
......
这类问题在数据分析师或者业务同事的日常工作中是经常会面临的问题,其实就是数据涨了或者降了,发生了不符合预期的波动,则算是指标异动,而分析指标异常波动原因的过程,则是归因分析
(1) 指标:是对业务过程的度量
(2) 异动:是指标发生了异常波动,一般来讲,异动可能是同一主体的本期与基期的比较,还有一种是不同主体的同期之间的比较。比如,线上获客的“收件成功率”,本月的“收件成功率”较上月下降,就是同一主体本期与基期的比较;而9字段表单的收件成功率比4字段表单的收件成功率低,这是不同主体之间,同一时期之间的比较
(3)归因:就是要分析是什么原因导致指标的异常波动。比如线上获客的“收件成功率”,其指标波动,可能是由于申卡表单类型、获客渠道、分中心、分中心科室等各种维度上发生的变动所导致的,我们想具体知道是哪个维度因素所导致,通过量化计算的方式,衡量各个因素对指标异动的贡献
(4)分析:根据对指标异动归因的结果进行解读,并给出建议
所以,指标异动归因分析,实际上是有先后顺序的两个概念:一个叫做指标异动,一个叫做归因分析。指标异动,是表现,是现象,要描述“是什么”;归因分析,是针对这个表现、现象的原因,解决回答“为什么”
1.2 指标异动归因分析的意义和目的
例如,线上获客的“收件成功率”本月(45%)较上月(40%),上涨了5个百分点,我们想知道为什么?以下是不同回答:
(1)上涨了5个百分点:主要是因为4字段表单的收件成功率上升和导致
(2)上涨了5个百分点:是因为4字段表单收件成功率的上升贡献了3个百分点,4字段表单占比减少贡献了2个百分点
指标异动归因分析可以使得对指标变动原因的解释,更加客观,且量化各个因素的影响贡献度,得出客观、量化、公正的结论,从而明确问题所在
1.3 指标异动分析步骤
一查底层数据:排查是否为底层数据问题。先定位是否为数据层面的bug和异常导致的数据异动,如果是数据层面的bug和异常,则追溯上游数仓,ETL等团队,排查数据异常原因
二查口径:排查是否因口径调整导致。一般,业务团队和数据团队的口径调整,可能信息同步短时间未完全覆盖,导致使用数据的时候,发生信息偏差
三查外部因素:考虑是场内问题还是场外问题,如有一些外部大的动作,如营销大促、舆情危机、新年过节等等,导致业务发生指标,这个可以通过拉长时间周期对比来看。
四查内部因素:上述问题都确认无误后,就剩下场内因素了,这个时候我们想要知道为什么出现指标的波动,就要用到本文说的归因方法,根据不同的问题类型,选择合适的归因方法,层层下钻,量化衡量指标波动背后的隐形原因
五出结果:针对指标背后的波动原因,要给出明确建议,举措,办法,尽可能要明确可落地,要到具体团队和具体人
2. 指标异常判断和归因方法
2.1 指标异常判断方法
2.1.1 阈值方法
a.固定阈值法:如指标大于或者小于固定值时进行异常预警
b.同环比阈值法:如指标环比或同比大于或者小于固定百分比时进行异常预警
2.1.2 统计方法
a.3倍标准差法:我们知道正态分布中,数据分布在2倍标准差内的概率是95.5%,在3倍标准差的概率内是99.7%,因此如果指标大于或小于指标均值的3倍标准差,则可认为数据异常波动
b.1.5倍IQR:即若指标不在【第一四分位数-1.5*四分位数间距,第三四分位数+1.5*四分位数间距】区间,则认为指标异常
2.1.3 建模方法
首先对指标进行建模进行预测,基于实际值和预测值的偏离来进行异常监控,该方法会更灵活,当然所需要的时间也更多
a.时间序列法:时间序列主要有两种方法,一种效应分解法,主要参考facebook的prophet方法进行建模;另外一种是基于宽平稳时间序列统计方法预测方法ARIMA,AR代表自回归模型、I代表差分、MA代表移动平均模型,python中的statsmodel中tsa.arima_model可进行预测;若实际值不在模型预测的结果范围,则判断为异常
b.长短时记忆网络LST
2.2 异常归因方法
2.2.1 加法型指标归因
(1) 适用场景
场景一:将指标按某个维度拆解,归因指标是维度的不同取值下的指标值加总
例如总分期金额=网络分期金额+电销分期金额+客服分期金额,此时是将总分期金额按“办理渠道”的维度进行的指标拆解
场景二:归因指标是其它指标的加减运算的结果
(2) 归因逻辑
⚠️至
是各因子的常数系数,
至
为各个子指标的波动值
第i个指标对波动的绝对贡献=
第i个指标对波动的贡献度= (贡献度总和为100%,与目标指标异动方向一致,为同向贡献,方向不一致,则为反向贡献)
第i个指标对波动的相对贡献= (相对贡献总和不一定为100%)
(3)应用案例
案例一:
背景:本月总分期金额1600万,较上月1300万的用户增长了300万,分期办理渠道有电销渠道、客服渠道、网络渠道,我们想知道具体增长原因,经过计算,我们得到贡献度,绝对贡献,相对贡献具体数值如下表:
| 维度 | 基期 | 本期 | 绝对贡献 | 贡献度 | 相对贡献 |
|---|---|---|---|---|---|
| 电销分期金额 | 100 | 500 | =500-100 =400 |
=400 / 300 =133.33% |
=400/1300 =30.77% |
| 客服分期金额 | 500 | 300 | =300-500 =-200 |
=-200 / 300 =-66.66% |
=-200/1300 =-15.38% |
| 网络分期金额 | 700 | 800 | =800-700 =100 |
=100/300 =33.33% |
=100/1300 =33.33% |
| 总分期金额=电销分期金额+客服分期金额+网络分期金额 |


1680

被折叠的 条评论
为什么被折叠?



