【数分面试宝典】数分面试常见问题(三)

本文介绍了数据分析面试中常见的问题,包括EDA(探索性数据分析)的组成部分,如频数分析、集中趋势分析、离散程度分析、分布和相关性分析。还讨论了同比、环比的概念及其在业务中的应用。此外,详细解释了相关性与因果性的区别,以及聚类、分类、回归和时间序列预测的定义、应用场景和相关算法。最后,提到了时间序列预测的特点和注意事项,以及与回归预测的区别。

Q1、什么是EDA(Exploratory Data Analysis)?

EDA(Exploratory Data Analysis)即数据探索性分析,需要对数据集中的变量进行统计和分布描述、了解变量间的相互关系,从整体上了解数据集的数据特征。探索性分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值

②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。

③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。

④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

⑤数据的相关性分析。探索不同变量之间的相关性,可以使用相关性图进行展示,表示各变量之间的相关程度,为后续机器学习的特征选择提供依据。

 

 

 

Q2、什么是同比、环比,意义是什么?

 

环比:与相连续的上一个统计周期进行对比,环比增长速度=(本期数-上期数)÷上期数×100% ,反映本期比上期增长了多少,如2021年12月和2021年11月对比,环比的好处是可以更直观的表明阶段性的变换,但是会受季节性因素影响。

 

同比:是对去年同期的一个统计阶段进行对比,同比增长率=(本期数-同期数)÷同期数×100%,如今年的这个月和去年的这个月,同比的好处是可以排除一部分季节因素。

 

 

Q3、什么是相关性分析?相关和因果的区别是什么?</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值