Q1、什么是EDA(Exploratory Data Analysis)?
EDA(Exploratory Data Analysis)即数据探索性分析,需要对数据集中的变量进行统计和分布描述、了解变量间的相互关系,从整体上了解数据集的数据特征。探索性分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值
②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
⑤数据的相关性分析。探索不同变量之间的相关性,可以使用相关性图进行展示,表示各变量之间的相关程度,为后续机器学习的特征选择提供依据。
Q2、什么是同比、环比,意义是什么?
环比:与相连续的上一个统计周期进行对比,环比增长速度=(本期数-上期数)÷上期数×100% ,反映本期比上期增长了多少,如2021年12月和2021年11月对比,环比的好处是可以更直观的表明阶段性的变换,但是会受季节性因素影响。
同比:是对去年同期的一个统计阶段进行对比,同比增长率=(本期数-同期数)÷同期数×100%,如今年的这个月和去年的这个月,同比的好处是可以排除一部分季节因素。
Q3、什么是相关性分析?相关和因果的区别是什么?</

本文介绍了数据分析面试中常见的问题,包括EDA(探索性数据分析)的组成部分,如频数分析、集中趋势分析、离散程度分析、分布和相关性分析。还讨论了同比、环比的概念及其在业务中的应用。此外,详细解释了相关性与因果性的区别,以及聚类、分类、回归和时间序列预测的定义、应用场景和相关算法。最后,提到了时间序列预测的特点和注意事项,以及与回归预测的区别。

4183

被折叠的 条评论
为什么被折叠?



