4.4 抽样分布正态总体的抽样分布
关注点:总体是正态分布,抽样,样本所构造的统计量的分布的相关研究。
单正态总体的抽样分布定理
正态总体\(X\sim N(\mu,\sigma^2)\),\((X_1,X_2,\cdots,X_n)\)是样本,样本均值为\(\overline{X}\),样本方差为\(S^2\).
其中
\[\overline{X}=\frac{1}{n}\sum\limits_{i=1}^nX_i,\]\[S^2 = \frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2\]
- \(\overline{X}\sim N(\mu,\frac{\sigma^2}{n})\)
证明:
\[E\overline{X}=E(\frac{1}{n}\sum\limits_{i=1}^nX_i) = \frac{1}{n}\sum\limits_{i=1}^nEX_i=\frac{1}{n}n\mu = \mu\]\[D\overline{X}=D(\frac{1}{n}\sum\limits_{i=1}^nX_i)=\frac{1}{n^2}\sum\limits_{i=1}^nDX_i=\frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}\]
由于\(\overline{X}=\frac{1}{n}(X_1+X_2+\cdots+X_n)\),且\((X_1+X_2+\cdots+X_n)\)服从正态分布,所以\(\overline{X}\)也服从正态分布。
再结合\(E\overline{X}\)和\(D\overline{X}\)的值,所以\(\overline{X}\)服从参数为\((\mu,\frac{\sigma^2}{n})\)的正态分布。
理解
样本均值的方差比总体的方差小,并且样本容量(\(n\))越大,方差越小。
假设有100个随机数,
- 当样本容量\(n=2\)时,可能刚好抽出两个很大的数,于是样本均值很大;也可能刚好抽出两个很小的数,于是样本均值很小,所以样本容量小会导致样本均值的方差大。
- 当样本容量\(n=98\)时,每次抽样可能都是那么些数字,每次抽样可能就和上次抽样相差一两个数字,于是样本均值都差不多,也就是说样本均值的方差比较小。
推论
\[U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]
因为\(\overline{X}\)服从正态分布,所以标准化之后就服从标准正态分布。
\(\frac{n-1}{\sigma^2}S^2=\frac{1}{\sigma^2}\sum\limits_{i=1}^n(X_i-\overline{X})\sim \chi^2(n-1)\)
\(\overline{X}\)和\(S\)相互独立。
另外一些定理
- \(\frac{1}{\sigma^2}\sum\limits_{i=1}^n(X_i-\mu)^2\sim\chi^2(n)\)
- \(\frac{1}{\sigma^2}\sum\limits_{i=1}^n(X_i-\overline{X})\sim \chi^2(n-1)\)
- \(\frac{1}{\sigma^2}\sum\limits_{i=1}^n(X_i-\mu)^2\sim\chi^2(n)\)
这样两个定理的区别在于上面用的\(\overline{X}\)是样本均值,下面的\(\mu\)是总体期望。
上面的卡方分布的自由度是\(n-1\),下面的自由度是\(n\)。
简单理解记忆:上面的定理有\(\overline{X}=\frac{1}{n}(X_1+\cdots+X_n)\),比下面的定理多出一个约束(方程)。
联系线性方程组的知识点,多一个方程就少一个自由未知量,因此自由度就比下面的少1.
- \(\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\)
证明:
前置知识:
- 标准正态分布和卡方分布构成\(t\)分布:\[X\sim N(0,1),Y\sim \chi^2(n) \]\[\frac{X}{\sqrt{Y/n}}\sim t(n)\]
结合上文的推论与定理:
\[\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \]\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)\]
因此
\[\frac{\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/n-1}}\sim t(n-1)\]
又因为
\[\frac{\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/n-1}}=\frac{\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\frac{S}{\sigma}}=\frac{\overline{X}-\mu}{S/\sqrt{n}}\]
所以
\[\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\]
双正态总体的抽样分布
两个总体:\(X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)\),
分别抽样:\((X_1,\cdots,X_{n_1})\)和\((Y_1,\cdots,Y_{n_2})\),(两个样本的容量不一样,分别是\(n_1\)和\(n_2\))
样本均值:\(\overline{X},\overline{Y}\),
样本方差:\(S_1^2,S_2^2\)。
定理
\[U=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)\]
证明:
根据上面单正态总体关于样本均值的定理,有
- \(\overline{X}\sim N(\mu_1,\frac{\sigma_1^2}{n_1})\)
- \(\overline{Y}\sim N(\mu_2,\frac{\sigma_2^2}{n_2})\)
再根据正态分布的线性可加性,有
\[\overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}-\frac{\sigma_2^2}{n_2})\]
再标准化,就得到了上面的定理。
\[F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-2)\]
证明:
前置知识点:
\(F\)分布
\(X\sim \chi^2(n_1),Y\sim \chi^2(n_2)\)
则\(\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2)\)
根据上面单正态总体关于样本方差的定理,有
- \(\frac{(n_1-1)S_1^2}{\sigma_1^2}\sim \chi^2(n_1-1)\)
- \(\frac{(n_2-1)S_2^2}{\sigma_2^2}\sim \chi^2(n_2-1)\)
于是
\[\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}/(n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma_2^2}/(n_2-1)}\sim F(n_1-1,n_2-1)\]
因此
\[\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-2)\]
使用教材:
《概率论与数理统计》第四版 中国人民大学 龙永红 主编 高等教育出版社