回归分析和卡方检验的区别_Danish:STATA 操作正态检验、卡方检验和T检验

本文详细介绍了如何在STATA中进行正态检验、卡方检验和T检验。通过各种统计量如Coef., Std. Err., QQPlot等分析数据分布,并使用JB检验和sktest进行正态性检验。此外,文章还讲解了T检验的不同类型及其适用条件。卡方检验方面,通过实例展示了不同种族婚姻状况的显著性差异。整个教程旨在帮助用户更好地理解和应用这些统计方法。" 128958338,11669771,网络协议与存储技术详解,"['网络协议', '网络存储', '数据库', '数据仓库', '中间件']

STATA 操作正态检验、卡方检验和T检验

图示和基本概念

  • Coef. :回归分析系数。在回归方程中表示自变量x 对因变量y 影响大小的参数。回归系数越大表示x 对y 影响越大。

  • Std. Err. :标准误。给定样本大小(里面有多少个观测值),样本的某个统计量的抽样分布的标准差。标准差。是描述对应的样本平均数抽样分布的离散程度及衡量对应样本平均数抽样误差大小的尺度。

  • Confidence intervals (Ci mean):连续变量mean的置信区间

  • Proportion(prop):分类变量mean的置信区间

  • Pwcorr:变量的配对相关性

  • Graph matrix:相关性矩阵

  • Stata 正态分布

  • kernel density estimation:核密度估计。是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。

  • Bandwidth:带宽。是一个自由参数。带宽的大小决定了核密度估计函数的平滑(smooth)程度,带宽越小越undersmooth,带宽越大越oversmooth。

  • Sum of wgt:权重求和。权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。

  • Std. Dev.:样本标准偏差。描述一整批数据里每个数据点之间的变异程度的, 这个值越大表示数据越散, 越小表示数据之间相差越小。

  • Variance:方差。方差用来计算每一个变量(观察值)与总体均数之间的差异。方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大)

  • QQPlot图:QQPlot图是用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中常用的是检验数据是否来自于正态分布。

  • Jarque-Bera检验:在统计学中,Jarque–Bera检验是对样本数据是否具有符合正态分布的偏度和峰度的拟合优度的检验。如果样本数据来自具有正态分布的总体,JB统计量近似服从自由度为2的卡方分布,因此该统计量可以用于检验数据是否服从正态分布。

  • 离散程度:反应数据远离中心的趋势。极差、四分位差、平均差、方差和标准差。

  • 偏态和峰态:反应数据的偏斜程度和峰度。

  • 加权平均数:被分为k组的数据,其组中值(下限值和上限值的简单平均)与频次依次相乘的和除以频数之和。

  • 奇数的四分位计算:等于该位置前面的值加上按比例分摊位置两侧数值的差值。比如9个数据,第2和第三个数据分别为300元和400元,第一个四分位数就是:Q=300+(400-300)x(9/4-2)=325.

  • 为什么方差和标准差要n-1:要求得样本方差相对于总体方差而言的无偏估计。根据计算之后需要除以n-1而非n,n-1是修正后的数。推导详情参见:https://blog.csdn.net/hearthougan/article/details/77859173

  • Z分数:就是某个数据与平均数相比相差多少个标准差。比如全班平均分80,标准差是10分,我考了90,那么我的z分数就是1.可以根据此判断一组数据中是否有离群点。在对称分布的一组数据中,平均数加减3个标准差的范围内几乎包含了全部数据,而3个标准差之外的数据被称为异常值或者离群点。

如何知道一组数据对不对称呢,直方图和茎叶图可以说明,然后具体的话就要测相关偏态和峰度。

  • Skewness:偏度,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。正态分布的偏度为0。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长。反之亦然。如果大于1或小于-1,高偏态分布;0.5-1或-1—1.5之间,中等;

  • Kurtosis:峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于3,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。如果k=0,服从标准正态分布。

参数估计

用样本统计量倒推总体参数。

在概率抽样的基础上。

中心极限定理。样本量是否大于30.样本均值的数学期望等于总体均值。

E(x)=u

通过点估计——区间估计——推导出置信区间。根据样本均数和总体均数的相似性,从而得出结论,大概有95%的置信区间包含了总体参数的真值。

检验假设

  • 原假设H。和备则假设H1.

  • 拒绝域:如果检验统计量的具体数值落在拒绝域内,就是拒绝了原假设。

  • P值:观察到的显著性水平。也就是当原假设正确时,得到的所观测的数据的概率。由p值可以知道如果原假设是正确的,那么样本数据出现的可能性有多大。如果p是0.05,说明如果原假设为真,这样的数据有5%的可能性会发生。P值越小,说明实际观测的数据与原假设不一致程度越大,越倾向于拒绝原假设。一般以0.05作为临界值。

例子:均值为50,标准差为10的正态曲线。那么如何求取间距50-65之间的个案比例。首先可以知道50-65之间有1.5个标准差,即z分数是1.5。就是说从x到z变换的过程中,新变量z也具有正态分布性质,且均值0,标准差是1.这个就叫做标准正态分布。

正态检验

用系统自带的数据来看吧:

输入:sysuse auto

输入:describe 查看数据

首先可以绘制一个概率图,通过图形的方式来看是否与正态分布相似。

输入:hist mpg, normal。这里mpg是任意一个变量。

然后也可以通过核密度图来更清楚的看一下样本概率密度和理论正态函数概率密度的图形差异。

输入:kdensity mpg, normal

然后还可以通过QQplot 来做一个散点图来看是否具有正态分布性质。

输入:qnorm mpg

BUT以上都无法精确的得知这组数据是否符合正态分布的特征。

所以可以做以下两个检验,做哪个都行。

1. JB检验

输入:su mpg, detail 

输入:di (r(N)/6) * ((r(skewness)^2) + [(1/4)*(r(kurtosis)-3)^2])

输入:di chi2tail(2, 上一步输出的JB统计量)

2. sktest

输入:sktest mpg(变量名称)

符合正态检验的数据才能做以下两个检验:

T检验

定义:

假设检验之一,也是显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分布)与某个已知总体参数(或分布)相同,然后根据统计量的分布规律来分析样本数据,利用样本信息判断是否支持这种假设,并对检验假设做出取舍抉择,做出的结论是概率性的,不是绝对的肯定或否定。

T检验是用于两个样本(或样本与群体)平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。

适用条件:

T检验师针对连续变量的统计推断方法中最基本的检验方法。当样本n较小时,一般要求样本取自正态总体。当样本较大时,根据中心极限定理就知道本均数抽样分布仍然是正态的,因此不用考虑t检验的适用条件。

分类:

  • 单样本t检验

  • 独立样本t检验

  • 配对样本t检验

b0ab32c1007acc67e43507320cbfff4a.png

8826d9b92b46c70a6b2fc1d29d2010f3.png

导入数据代码:webuse auto.dta, clear

Ttest varname [if][in], by(varname),[level(#)]

Stata 卡方检验

22977a42a3fca7a615ec56a542ff843d.png

例子:用stata自带的1988年U.S. National Longitudinal Study of Young Women Data数据集

代码:sysuse nlsw88,clear

5035d98fa03bfae6cdfef3055feae912.png

看不同种族的人的婚姻状况的差别。

出现了这个

f0201fe039eb62bf5f07eaf06a8aba1a.png

Tabulate race married, chi2 就是这一行所用的代码。

P值就是概率。现在国际一般用的标准是*p<0.05, **p<0.01, ***p<0.001, *是显著,**是很显著,***是非常显著.

所以在这里就是非常显著,也就是说不同婚姻状态的人他们的种族是不同的。

第二个就把数据显示量放多一些。

280ad359947623330433ea0e46afff00.png069551cb75732b4c605b809d355d187b.png

Cell contents 选项点击第一个就可以看每一个单元格对于卡方检验的贡献是多少。从而量化每个类别差异对总卡方值有多大影响,以后可以根据这个来做特征提取。

然后expected frequencies 可以看期望频数(理论频数)

卡方检验代码:tabulate var1 var2, chi2

每个单元格对卡方检验的贡献:tabulate var1 var2, cchi2 chi2

理论频数: tabulate var1 var2, chi2 expected

*Fisher精确检验

代码:tabulate var1 var2, exact

1.所有的理论频数T≥5并且总样本量n≥40,用Pearson卡方进行检验.

2.如果理论频数T≥1且<5,并且n≥40,用连续性校正的卡方进行检验,这个时候结果以连续性校正的结果为准.

3.如果有理论频数T<1或n<40,则用Fisher’s检验.

但是stata本身不带卡方检验的连续性校正。样本量足够大的时候,使用卡方检验的连续性校正区别很小;使用Fisher精确检验也ok

样本量小的时候(期望值<5),可以直接用Fisher精确检验。

本文由Danish东拼西凑而成

b3b4c452733404a1a22fba23757ff4ff.png

有的地方没写清楚我自己真的不明白

不欢迎讨论

b3b4c452733404a1a22fba23757ff4ff.png

特此鸣谢:南开社会学小冯女士&北理光电男神老王同学

b3b4c452733404a1a22fba23757ff4ff.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值