如何抽取样本方差的分布
样本方差的分布其实是服从一个$\chi^2$分布的。所以,要抽样样本的方差只要知道这个分布是啥就行了。我们直接给出定理,然后证明,最后给个例子。
定理
假设: 1、$X_1,\cdots,X_n$是来自一个正态分布$N(\mu,\sigma^2)$的$n$个样本 2、$\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$是样本的均值 3、$S^2= \frac{1}{n-1} \sum_{i=1}^n(X_i-\bar{X})^2$是样本的方差
那么有: 1、$\bar{X}$与$S^2$是相互独立的。 2、$\frac{(n-1)S^2}{\sigma^2}=\frac{\sum_{i=1}^2(X_i-\bar{X})}{\sigma^2}\sim \chi^2(n-1)$
我们来证明一下第二个结论(如果您想直接看如何抽样,那就记住这个定理,跳过本段证明即可) 首先,假设有个$W$如下:
\begin{aligned}
W &= \sum_{i=1}^n (\frac{X_i-\mu}{\sigma})^2 \\
&\\
&= \sum_{i=1}^n (\frac{ (X_i-\bar{X})^2- (\bar{X}-\mu)^2 }{\sigma})^2 \\
&\\
&= \sum_{i=1}^n(\frac{ X_i-\bar{X}}{\sigma})^2 + \sum_{i=1}^n(\frac{ \bar{X}-\mu}{\sigma})^2 + \frac{2}{\sigma^2}( \bar{X}-\mu)\sum_{i=1}^n( X_i-\bar{X}) \\
&\\
&= \sum_{i=1}^n(\frac{ X_i-\bar{X}}{\sigma})^2 + \sum_{i=1}^n(\frac{ \bar{X}-\mu}{\sigma})^2 + \frac{2}{\sigma^2}( \bar{X}-\mu)(\sum_{i=1}^nX_i-n\bar{X}) \\
&\\
&= \sum_{i=1}^n(\frac{ X_i-\bar{X}}{\sigma})^2 + \sum_{i=1}^n(\frac{ \bar{X}-\mu}{\sigma})^2
\end{aligned}
前面我们已经定义了样本方差,有:
\begin{aligned}
S^2 &= \frac{1}{n-1} \sum_{i=1}^n(X_i-\bar{X})^2 \\
&\\
(n-1)S^2 &= \sum_{i=1}^n(X_i-\bar{X})^2 \\
\end{aligned}
因此,前面的公式可以改写成:
W = \frac{(n-1)S^2}{\sigma^2} +\frac{ n(\bar{X}-\mu)^2}{\sigma^2}
到这里,左边的$W$其实就是一个$\chi^2$分布了,不过其自由度是$n$。因为当$X$是一个正态分布的时候,$(X-\mu)/\sigma$就是一个标准正态分布。所以左边是$n$个正态分布随机变量的平方和,也就是$\chi^2$分布。同时,右边的$\frac{ n(\bar{X}-\mu)^2}{\sigma^2}$是自由度为1的$\chi^2$分布,假设它是$Z^2=\chi^2(1)$。。我们使用矩母函数来证明这个结果。
在统计学中,矩母函数是一个关于随机变量的实值函数,它可以替代密度函数来描述分布。也就是说,出了概率密度函数外,我们也可以通过矩母函数来描述分布。矩母函数具有单值性。也就是说,如果矩母函数相同,那么这两个分布在所有点上的值也是相同的。
关于矩母函数的介绍可以参考矩母函数简介(Moment-generating function)
右边可以使用如下的矩母函数表示(注:$M(\cdot)$表示矩母函数,它等于$E[e^{t\cdot}]$,$t$是实数):
\begin{aligned}
E[e^{t((n-1)S^2/\sigma^2+Z^2)}] &= E[e^{t((n-1)S^2/\sigma^2} \cdot e^{tZ^2}] \\
&\\
&= M_{(n-1)S^2/\sigma^2}(t) \cdot M_{Z^2}(t)
\end{aligned}
前面已经说了,左边是自由度为$n$的$\chi^2$分布,右边第二个是自由度为1的$\chi^2$分布,而$\chi^2$分布的矩母函数的形式是:
(1-2t)^{-\frac{n}{2}}
因此,上式左右两边可以继续改写成:
(1-2t)^{-n/2} = M_{(n-1)S^2/\sigma^2}(t) \cdot (1-2t)^{-1/2}
最终我们得到:
M_{(n-1)S^2/\sigma^2}(t) = (1-2t)^{-(n-1)/2}
而这个式子就是自由度为$n-1$的$\chi^2$分布的矩母函数。也就是说:
\frac{(n-1)S^2}{\sigma^2} = \frac{ \sum_{i=1}^n (X_i - \bar{X})^2 }{\sigma^2} \sim \chi^2_{(n-1)}
接下来我们看一个有意思的东西,$n$个随机变量在转换成标准正态分布之后,其平方和服从自由度为$n$的$\chi^2$分布:
\frac{ \sum_{i=1}^n (X_i - \mu)^2 }{\sigma^2} \sim \chi^2(n)
但是,这些随机变量如果使用样本均值做转换却得到了一个自由度是$n-1$的$\chi^2$分布:
\frac{ \sum_{i=1}^n (X_i - \bar{X})^2 }{\sigma^2} \sim \chi^2(n)
这是因为我们使用样本均值$\bar{X}$估计未知的总体均值的时候,丢掉了一个自由度。这在一般情况下都成立,即在某种$\chi^2$随机变量下估计每一个参数都会丢失一个自由度。
一个例子
假设我们要估计一群人智商所服从的分布的参数。用$X_i$表示某个人的智商,$i=1,\cdots,8$。假设这群人智商的分布来自于均值是$\mu=100$,方差$\sigma^2=16^2$的正态分布,那么$\frac{(n-1)S^2}{\sigma^2}$的分布根据上述结论应该是一个自由度为7的$\chi^2$分布。即由于样本数量是8,所以有:
\frac{(8-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^8(X_i-\bar{X})^2}{\sigma^2}
它是服从一个自由度为7的$\chi^2$分布的,其图像如下:

这些都是理论上的,如果要看看实际结果可以这样做实验。我们可以从均值是$\mu=100$,方差$\sigma^2=16^2$的正态分布中抽取1000组样本,每一组都是8个样本点。然后计算每一组8个样本点的方差,再把这些方差使用频率直方图画出来。图形结果应该和上述类似。有人做过这样的实验,其图形如下(应该说是非常相似了):

