统计学③——总体与样本的差异在哪里

统计学系列目录(文末有大奖赠送
统计学①——概率论基础及业务实战
统计学②——概率分布(几何,二项,泊松,正态分布)
统计学④——置信区间
统计学⑤——假设验证

一、总体与样本定义

总体:所研究的所有事件的集合
样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论

二、抽样方法

我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。
在这里插入图片描述
无偏样本的抽样方法
简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种
分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样
整群抽样:将总体分为几个群,群与群之间相似,随机抽取几个群作为样本
系统抽样:随机选取一个数据K,每次到第K个抽样单位就抽一次

三、总体参数的估计

①总体均值
当通过抽样获得无偏样本后,可以直接用样本的均值来估计总体的均值,如下:
在这里插入图片描述
在这里插入图片描述
②总体方差
方差是否可以直接用样本方差呢?答案是No,因为方差衡量的是分散性,样本相对总体而言,数量较少,可能会将一些异常值排除在外,导致样本的方差要少于总体
在这里插入图片描述
如果要确切知道总体的方差,并且拥有总体的数据,方差的计算如下:
在这里插入图片描述
如果需要用样本估计总体的方差,计算如下:
在这里插入图片描述
之所以用n-1而不是n,,是因为n-1会使得方差稍微大一些,更接近总体方差

③总体比例
样本比例直接估计总体比例
在这里插入图片描述

四、比例抽样分布

当考虑从一个总体中抽取所有大小为n的样本,由这些样本中的某个比例所形成的分布,就叫比例的抽样分布,一般用Ps表示样本比例变量

一般用来求解这类问题:当得知公司生产的糖果有25%的红色的,那么随机抽取100个样本,至少有50%的糖果是红色的概率?

Ps的期望和方差定义为:
在这里插入图片描述
如果n>30时,二项分布可以近似为正态分布
在这里插入图片描述
需要进行连续性修正

五、均值抽样分布

如果考虑从一个总体中抽出所有大小为n的样本,然后用这些样本的均值形成一个分布,那么这个分布就叫均值抽样分布。

一般用来求解这类问题:总体中每个袋子平均有10颗糖,那么随机抽取一个袋子中糖的个数小于8的概率是多少?

期望和方差的计算如下:
在这里插入图片描述
样本的均值期望就是总体的均值,而方差却不等于总体方差,这里是为什么呢?

因为总体方差衡量的是总体样本的分散性,而均值方差衡量的是所有抽取的样本的均值的分散性,是2个不同的东西。用总体的方差/n 表示随着样本数量增多,样本均值方差会越来越小,意味着样本均值越来越接近于总体均值

如果总体符合均值为μ,方差为σ^2的正态分布,那么抽取的样本均值符合如下分布:
在这里插入图片描述
如果总体不是正态分布时,那样本均值还会符合上述分布吗?答案是看情况,如果抽取的样本n很大时,还是符合上述分布的,这里要重点引出中心极限定理:
在这里插入图片描述
中心极限定理可以运用于:

① 如果总体属于二项分布,用X~B(n,p)表示,n>30,则样本均值的抽样分布近似N(np,pq/n)
② 如果总体属于泊松分布,用Po(λ)表示,n>30,则样本均值的抽样分布近似N(λ,λ/n)

因为均值的抽样分布属于正态分布,就可以通过标准化再差概率表得到特定样本均值的概率了


本人互联网数据分析师,目前已出ExcelSQLPandasMatplotlibSeaborn机器学习统计学个性推荐关联算法工作总结系列。


微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学9本统计学入门到精通必备经典教材
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值