回归分析和卡方检验的区别_Danish：STATA 操作正态检验、卡方检验和T检验

最新推荐文章于 2025-09-08 11:13:19 发布

最新推荐文章于 2025-09-08 11:13:19 发布 · 5.8k 阅读

标签

本文详细介绍了如何在STATA中进行正态检验、卡方检验和T检验。通过各种统计量如Coef., Std. Err., QQPlot等分析数据分布，并使用JB检验和sktest进行正态性检验。此外，文章还讲解了T检验的不同类型及其适用条件。卡方检验方面，通过实例展示了不同种族婚姻状况的显著性差异。整个教程旨在帮助用户更好地理解和应用这些统计方法。" 128958338,11669771,网络协议与存储技术详解,"['网络协议', '网络存储', '数据库', '数据仓库', '中间件']

STATA 操作正态检验、卡方检验和T检验

图示和基本概念

Coef. ：回归分析系数。在回归方程中表示自变量x 对因变量y 影响大小的参数。回归系数越大表示x 对y 影响越大。
Std. Err. ：标准误。给定样本大小(里面有多少个观测值)，样本的某个统计量的抽样分布的标准差。标准差。是描述对应的样本平均数抽样分布的离散程度及衡量对应样本平均数抽样误差大小的尺度。
Confidence intervals (Ci mean)：连续变量mean的置信区间
Proportion(prop)：分类变量mean的置信区间
Pwcorr：变量的配对相关性
Graph matrix：相关性矩阵
Stata 正态分布
kernel density estimation：核密度估计。是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。
Bandwidth：带宽。是一个自由参数。带宽的大小决定了核密度估计函数的平滑(smooth)程度，带宽越小越undersmooth，带宽越大越oversmooth。
Sum of wgt：权重求和。权重是指某一因素或指标相对于某一事物的重要程度，其不同于一般的比重，体现的不仅仅是某一因素或指标所占的百分比，强调的是因素或指标的相对重要程度，倾向于贡献度或重要性。
Std. Dev.：样本标准偏差。描述一整批数据里每个数据点之间的变异程度的, 这个值越大表示数据越散, 越小表示数据之间相差越小。
Variance：方差。方差用来计算每一个变量(观察值)与总体均数之间的差异。方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大，离散程度越大)
QQPlot图：QQPlot图是用于直观验证一组数据是否来自某个分布，或者验证某两组数据是否来自同一(族)分布。在教学和软件中常用的是检验数据是否来自于正态分布。
Jarque-Bera检验：在统计学中，Jarque–Bera检验是对样本数据是否具有符合正态分布的偏度和峰度的拟合优度的检验。如果样本数据来自具有正态分布的总体,JB统计量近似服从自由度为2的卡方分布,因此该统计量可以用于检验数据是否服从正态分布。

离散程度：反应数据远离中心的趋势。极差、四分位差、平均差、方差和标准差。
偏态和峰态：反应数据的偏斜程度和峰度。
加权平均数：被分为k组的数据，其组中值(下限值和上限值的简单平均)与频次依次相乘的和除以频数之和。
奇数的四分位计算：等于该位置前面的值加上按比例分摊位置两侧数值的差值。比如9个数据，第2和第三个数据分别为300元和400元，第一个四分位数就是：Q=300+(400-300)x(9/4-2)=325.
为什么方差和标准差要n-1：要求得样本方差相对于总体方差而言的无偏估计。根据计算之后需要除以n-1而非n，n-1是修正后的数。推导详情参见：https://blog.csdn.net/hearthougan/article/details/77859173
Z分数：就是某个数据与平均数相比相差多少个标准差。比如全班平均分80，标准差是10分，我考了90，那么我的z分数就是1.可以根据此判断一组数据中是否有离群点。在对称分布的一组数据中，平均数加减3个标准差的范围内几乎包含了全部数据，而3个标准差之外的数据被称为异常值或者离群点。

如何知道一组数据对不对称呢，直方图和茎叶图可以说明，然后具体的话就要测相关偏态和峰度。

Skewness：偏度，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。正态分布的偏度为0。若以bs表示偏度。bs<0称分布具有负偏离，也称左偏态，此时数据位于均值左边的比位于右边的少，直观表现为左边的尾部相对于与右边的尾部要长，因为有少数变量值很小，使曲线左侧尾部拖得很长。反之亦然。如果大于1或小于-1，高偏态分布；0.5-1或-1—1.5之间，中等；
Kurtosis：峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于3，峰的形状比较尖，比正态分布峰要陡峭。反之亦然。衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。如果k=0，服从标准正态分布。

参数估计

用样本统计量倒推总体参数。

在概率抽样的基础上。

中心极限定理。样本量是否大于30.样本均值的数学期望等于总体均值。

E(x)=u

通过点估计——区间估计——推导出置信区间。根据样本均数和总体均数的相似性，从而得出结论，大概有95%的置信区间包含了总体参数的真值。

检验假设

原假设H。和备则假设H1.
拒绝域：如果检验统计量的具体数值落在拒绝域内，就是拒绝了原假设。
P值：观察到的显著性水平。也就是当原假设正确时，得到的所观测的数据的概率。由p值可以知道如果原假设是正确的，那么样本数据出现的可能性有多大。如果p是0.05,说明如果原假设为真，这样的数据有5%的可能性会发生。P值越小，说明实际观测的数据与原假设不一致程度越大，越倾向于拒绝原假设。一般以0.05作为临界值。

例子：均值为50，标准差为10的正态曲线。那么如何求取间距50-65之间的个案比例。首先可以知道50-65之间有1.5个标准差，即z分数是1.5。就是说从x到z变换的过程中，新变量z也具有正态分布性质，且均值0，标准差是1.这个就叫做标准正态分布。

正态检验

用系统自带的数据来看吧：

输入：sysuse auto

输入：describe 查看数据

首先可以绘制一个概率图，通过图形的方式来看是否与正态分布相似。

输入：hist mpg, normal。这里mpg是任意一个变量。

然后也可以通过核密度图来更清楚的看一下样本概率密度和理论正态函数概率密度的图形差异。

输入：kdensity mpg, normal

然后还可以通过QQplot 来做一个散点图来看是否具有正态分布性质。

输入：qnorm mpg

BUT以上都无法精确的得知这组数据是否符合正态分布的特征。

所以可以做以下两个检验，做哪个都行。

1. JB检验

输入：su mpg, detail

输入：di (r(N)/6) * ((r(skewness)^2) + [(1/4)*(r(kurtosis)-3)^2])

输入：di chi2tail(2, 上一步输出的JB统计量)

2. sktest

输入：sktest mpg(变量名称)

符合正态检验的数据才能做以下两个检验：

T检验

定义：

假设检验之一，也是显著性检验，是以小概率反证法的逻辑推理，判断假设是否成立的统计方法，它首先假设样本对应的总体参数(或分布)与某个已知总体参数(或分布)相同，然后根据统计量的分布规律来分析样本数据，利用样本信息判断是否支持这种假设，并对检验假设做出取舍抉择，做出的结论是概率性的，不是绝对的肯定或否定。

T检验是用于两个样本(或样本与群体)平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率，从而判定两个平均数的差异是否显著。

适用条件：

T检验师针对连续变量的统计推断方法中最基本的检验方法。当样本n较小时，一般要求样本取自正态总体。当样本较大时，根据中心极限定理就知道本均数抽样分布仍然是正态的，因此不用考虑t检验的适用条件。

分类：