一、发现提出问题
1、明确问题和分析目标
2、确定分析指标(以电商为例)
用户指标
-
DAU(日活跃用户数)
-
WAU(周活跃用户数)
-
MAU(月活跃用户数)
-
留存率:次日留存、7日留存、30日留存
转化指标
-
转化率
财务指标
-
GMV(总成交额)
-
APRU(客单价)
-
CAC(获客成本)
-
ROI(投入产出比)
-
LTV(用户生命周期价值)
行为指标
-
PV(页面访问量)
-
UV(独立访客数)
-
CTR(点击率)
-
停留时长
3、制定假设(造成问题的可能原因)
二、数据采集
1、数据来源
-
数据库
-
日志
-
API接口
-
Excel
2、数据采集工具
-
SQL
-
PYython
-
Excel
三、数据清洗及预处理
1、缺失值处理
删除
填充
简单填充
-
均值填充
-
中位数填充
-
众数填充
插值法
-
线性插值
-
时间序列插值
KNN填充
固定值填充
多重插值
2、异常值处理
- 查找异常值
- 最大值最小值
- 3σ原则
- 箱线图
- Z-score 方法
- 处理异常值
- 删除
- 替换
- 均值/中位数替换
- 四分位数替换
- 插值
3、重复值处理
- 删除
4、数据转换
- 标准化
- 归一化
- 对数变换
- Box-Cox变换
- Yeo-Johnson变换
- 分位数变换
- 离散化
四、数据探索性分析
1、描述性统计
- 均值
- 中位数
- 方差
- 分布
2、数据可视化
- 直方图
- 箱线图
- 散点图
- 条形图
3、相关性分析
- Pearson相关系数
- Spearman相关系数
- Kendall相关系数
- 协方差及协方差矩阵
5、假设检验
- t检验
- 卡方检验
- 方差分析
- Z检验
- T检验
- A/B Test
五、模型建立和分析
1、模型选择
机器学习模型
有监督学习
-
回归模型
- 线性回归
- 逻辑回归
- 多项式回归
- 岭回归
-
分类模型
- 逻辑回归
- 决策树
- 随机森林
- 支持向量机(SVM)
- 梯度提升数(XGBoost、GBDT)
- K最近邻(KNN)
无监督学习
-
聚类模型
- K-means聚类
- 层次聚类
- DBSCAN
- 高斯混合模型(GMM)
-
降维
- 主成分分析(PCA)
- 线性判别分析(LDA)
- t-分布随机邻域嵌入(t-SNE)
- 多维尺度变换(MDS)
- 局部线性嵌入(LLE)
- 自动编码器(Autoencoders)
深度学习模型
-
人工神经网络(ANN)
-
循环神经网络(RNN)
-
门控循环单元(GRU)
-
卷积神经网络(CNN)
-
BP神经网络
-
长短期记忆网络(LSTM)
-
生成对抗网络(GAN)
-
Transformer
时间序列模型
-
自回归移动平均模型(ARMA)
-
自回归积分滑动平均模型(ARIMA)
-
季节性ARIMA(SARIMA)
-
自相量回归(VAR)
假设检验
-
t检验
-
卡方检验
-
方差分析
-
Z检验
-
T检验
-
A/B Test
2、模型评价
回归模型评价指标
-
均方误差(MSE)
-
均方根误差(RMSE)
-
平均绝对误差(MAE)
-
平均绝对百分比误差(MAPE)
-
均方对数误差(MSLE)
-
中位绝对误差(MedARE)
-
决定系数R^2
分类问题评价指标
-
混淆矩阵
- 准确率(Accuracy)
- 精确率(Precision)
- 召回率(Recall)
- F1 score
-
PR曲线
-
ROC曲线
-
AUC曲线
聚类模型评价指标
-
误差平方和(SSE)
-
轮廓系数
-
Calinski-Harabasz指数
-
Davie-Bouldin指数(DBI)
时间序列预测评价指标
-
均方根误差(RMSE)
-
平均绝对误差(MAE)
-
平均绝对百分比误差(MAPE)
-
残差图(ACF/PCAF)
六、结果解释及报告
1、结果可视化
2、结合业务背景提建议
欢迎大家指出问题以及建议

1026

被折叠的 条评论
为什么被折叠?



