统计学系列目录(文末有大奖赠送):
统计学①——概率论基础及业务实战
统计学②——概率分布(几何,二项,泊松,正态分布)
统计学④——置信区间
统计学⑤——假设验证
一、总体与样本定义
总体:所研究的所有事件的集合
样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论
二、抽样方法
我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。

无偏样本的抽样方法:
① 简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种
② 分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样
③ 整群抽样:将总体分为几个群,群与群之间相似,随机抽取几个群作为样本
⑤ 系统抽样:随机选取一个数据K,每次到第K个抽样单位就抽一次
三、总体参数的估计
①总体均值
当通过抽样获得无偏样本后,可以直接用样本的均值来估计总体的均值,如下:


②总体方差
方差是否可以直接用样本方差呢?答案是No,因为方差衡量的是分散性,样本相对总体而言,数量较少,可能会将一些异常值排除在外,导致样本的方差要少于总体

如果要确切知道总体的方差,并且拥有总体的数据,方差的计算如下:

如果需要用样本估计总体的方差,计算如下:

之所以用n-1而不是n,,是因为n-1会使得方差稍微大一些,更接近总体方差
③总体比例
样本比例直接估计总体比例

四、比例抽样分布
当考虑从一个总体中抽取所有大小为n的样本,由这些样本中的某个比例所形成的分布,就叫比例的抽样分布,一般用Ps表示样本比例变量
一般用来求解这类问题:当得知公司生产的糖果有25%的红色的,那么随机抽取100个样本,至少有50%的糖果是红色的概率?
Ps的期望和方差定义为:

如果n>30时,二项分布可以近似为正态分布

需要进行连续性修正
五、均值抽样分布
如果考虑从一个总体中抽出所有大小为n的样本,然后用这些样本的均值形成一个分布,那么这个分布就叫均值抽样分布。
一般用来求解这类问题:总体中每个袋子平均有10颗糖,那么随机抽取一个袋子中糖的个数小于8的概率是多少?
期望和方差的计算如下:

样本的均值期望就是总体的均值,而方差却不等于总体方差,这里是为什么呢?
因为总体方差衡量的是总体样本的分散性,而均值方差衡量的是所有抽取的样本的均值的分散性,是2个不同的东西。用总体的方差/n 表示随着样本数量增多,样本均值方差会越来越小,意味着样本均值越来越接近于总体均值
如果总体符合均值为μ,方差为σ^2的正态分布,那么抽取的样本均值符合如下分布:

如果总体不是正态分布时,那样本均值还会符合上述分布吗?答案是看情况,如果抽取的样本n很大时,还是符合上述分布的,这里要重点引出中心极限定理:

中心极限定理可以运用于:
① 如果总体属于二项分布,用X~B(n,p)表示,n>30,则样本均值的抽样分布近似N(np,pq/n)
② 如果总体属于泊松分布,用Po(λ)表示,n>30,则样本均值的抽样分布近似N(λ,λ/n)
因为均值的抽样分布属于正态分布,就可以通过标准化再差概率表得到特定样本均值的概率了
本人互联网数据分析师,目前已出Excel,SQL,Pandas,Matplotlib,Seaborn,机器学习,统计学,个性推荐,关联算法,工作总结系列。
微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学等9本统计学入门到精通必备经典教材

1万+

被折叠的 条评论
为什么被折叠?



