数据分析基本框架

一、发现提出问题

1、明确问题和分析目标

2、确定分析指标(以电商为例)

用户指标

  • DAU(日活跃用户数)
  • WAU(周活跃用户数)
  • MAU(月活跃用户数)
  • 留存率:次日留存、7日留存、30日留存

转化指标

  • 转化率

财务指标

  • GMV(总成交额)
  • APRU(客单价)
  • CAC(获客成本)
  • ROI(投入产出比)
  • LTV(用户生命周期价值)

行为指标

  • PV(页面访问量)
  • UV(独立访客数)
  • CTR(点击率)
  • 停留时长

3、制定假设(造成问题的可能原因)

二、数据采集

1、数据来源

  • 数据库
  • 日志
  • API接口
  • Excel

2、数据采集工具

  • SQL
  • PYython
  • Excel

三、数据清洗及预处理

1、缺失值处理

删除
填充
简单填充
  • 均值填充
  • 中位数填充
  • 众数填充
插值法
  • 线性插值
  • 时间序列插值
KNN填充
固定值填充
多重插值

2、异常值处理

  • 查找异常值
    • 最大值最小值
    • 3σ原则
    • 箱线图
    • Z-score 方法
  • 处理异常值
    • 删除
    • 替换
      • 均值/中位数替换
      • 四分位数替换
      • 插值

3、重复值处理

  • 删除

4、数据转换

  • 标准化
  • 归一化
  • 对数变换
  • Box-Cox变换
  •  Yeo-Johnson变换
  • 分位数变换
  • 离散化

四、数据探索性分析

1、描述性统计

  • 均值
  • 中位数
  • 方差
  • 分布

2、数据可视化

  • 直方图
  • 箱线图
  • 散点图
  • 条形图

3、相关性分析

  • Pearson相关系数
  • Spearman相关系数
  • Kendall相关系数
  • 协方差及协方差矩阵

5、假设检验

  • t检验
  • 卡方检验
  • 方差分析
  • Z检验
  • T检验
  • A/B Test

五、模型建立和分析

1、模型选择

机器学习模型

有监督学习
  • 回归模型
    • 线性回归
    • 逻辑回归
    • 多项式回归
    • 岭回归
  • 分类模型
    • 逻辑回归
    • 决策树
    • 随机森林
    • 支持向量机(SVM)
    • 梯度提升数(XGBoost、GBDT)
    • K最近邻(KNN)
无监督学习
  • 聚类模型
    • K-means聚类
    • 层次聚类
    • DBSCAN
    • 高斯混合模型(GMM)
  • 降维
    • 主成分分析(PCA)
    • 线性判别分析(LDA)
    • t-分布随机邻域嵌入(t-SNE)
    • 多维尺度变换(MDS)
    • 局部线性嵌入(LLE)
    • 自动编码器(Autoencoders)

深度学习模型

  • 人工神经网络(ANN)
  • 循环神经网络(RNN)
  • 门控循环单元(GRU)
  • 卷积神经网络(CNN)
  • BP神经网络
  • 长短期记忆网络(LSTM)
  • 生成对抗网络(GAN)
  • Transformer

时间序列模型

  • 自回归移动平均模型(ARMA)
  • 自回归积分滑动平均模型(ARIMA)
  • 季节性ARIMA(SARIMA)
  • 自相量回归(VAR)

假设检验

  • t检验
  • 卡方检验
  • 方差分析
  • Z检验
  • T检验
  • A/B Test

2、模型评价

回归模型评价指标

  • 均方误差(MSE)
  • 均方根误差(RMSE)
  • 平均绝对误差(MAE)
  • 平均绝对百分比误差(MAPE)
  • 均方对数误差(MSLE)
  • 中位绝对误差(MedARE)
  • 决定系数R^2

分类问题评价指标

  • 混淆矩阵
    • 准确率(Accuracy)
    • 精确率(Precision)
    • 召回率(Recall)
    • F1 score
  • PR曲线
  • ROC曲线
  • AUC曲线

聚类模型评价指标

  • 误差平方和(SSE)
  • 轮廓系数
  • Calinski-Harabasz指数
  • Davie-Bouldin指数(DBI)

时间序列预测评价指标

  • 均方根误差(RMSE)
  • 平均绝对误差(MAE)
  • 平均绝对百分比误差(MAPE)
  • 残差图(ACF/PCAF)

六、结果解释及报告

1、结果可视化

2、结合业务背景提建议

欢迎大家指出问题以及建议

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值