Chapter 8 参数估计

8.1 统计量

统计量实际上是一种对样本数据信息的压缩。一个好的统计量,应该能把样本中包含总体的信息全部提炼出来,而不损失任何信息,这样的统计量称为充分统计量(sufficient statistic)。

8.2 抽样分布

8.2.1 样本均数\(\bar X\)的抽样分布

抽样误差是抽样研究固有的属性,不可避免,它是由个体变异和抽样共同引起的。

  1. 总体方差已知,或总体方差未知但样本量足够大时

\[\bar X \sim N(\mu,\sigma_{\bar X}^2)\]\(\bar X\)标准化,有: \[U=\frac{\bar X-\mu}{\sigma_{\bar X}}=\frac{\bar X-\mu}{\sigma_ X/\sqrt{n}}\] U为标准化随机变量,\(U\sim N(0,1)\)

若从一个非正态总体中随机抽样,且样本量足够大\((n\geq30)\),样本均数\(\bar X\)的抽样分布又该如何?

中心极限定理(Central limit theorems):中心极限定理指的是给定一个任意分布的总体\(X\),只要存在有限的方差\(\sigma^2(\sigma^2\neq0)\),则当样本量n足够大时,样本均数\(\bar X\)的抽样分布将近似的服从均数为\(\mu\)和方差为\(\sigma_{\bar X}^2\)的正态分布。 \[\bar X\simeq N(\mu,\frac{\sigma^2}{n})\] 在大样本量条件下,由于样本方差\(S^2\)对总体方差\(\sigma^2\)的估计误差非常小,实践中我们可以直接用\(S^2\)替代\(\sigma^2\)进行计算。

每次从这些总体中随机抽取\(n\)个抽样,一共抽\(m\)次。然后把这\(m\)组抽样分别求出平均值。这些平均值的分布接近正态分布。

8.2.2 样本方差\(S^2\)的抽样分布

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(v)\] \(\chi^2\)分布式赫尔默特(F.R. Helmert)于1875年研究来自正态总体的样本方差的抽样分布时得出的,其密度函数为: \[f_v(x)=\begin{cases} \frac{1}{2^{\frac{v}{2}}\Gamma\left(\frac{v}{2}\right)}y^{\frac{v}{2}-1}\mathrm{e}^{-\frac{\chi^2}{2}},&\chi^2>0\\ 0,&\chi^2\leq0\end{cases}\] \(\chi^2\)分布和\(t\)分布一样,是依赖于参数(自由度)的一簇分布。随着自由度的增加,其分布曲线由正偏态分布趋近于正态分布。

8.2.3 样本率的抽样分布

率的统计指标 计算公式
样本率\(p\)的总体均数 \(\mu_{p}=\pi\)
样本量\(p\)的方差 \(\sigma_p^2=\frac{\pi(1-\pi)}{n}\)(理论值);\(S_p^2=\frac{p(1-p)}{n}\)(估计值)
样本率\(p\)的标准差 \(\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}\)(理论值);\(S_p=\sqrt{\frac{p(1-p)}{n}}\)(估计值)
率的标准误 \(\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}\)(理论值);\(S_p=\sqrt{\frac{p(1-p)}{n}}\)(估计值)

8.2.4 样本均数及其抽样分布

均数的统计指标 计算公式
样本均数 \(\bar X=\frac{\sum_\limits{i=1}^{n}X_i}{n}\)
样本方差 \(\sigma^2=\frac{\sum_\limits{i=1}^{n}(\mu-\bar \mu)^2}{n}\)(理论值);\(S^2=\frac{\sum_\limits{i=1}^{n}(X_i-\bar X)^2}{n-1}\)(估计值) 1
样本均数标准误(SE) \(\sigma_{\bar X}=\frac{\sigma}{\sqrt{n}}\)(理论值);\(S_{\bar X}=\frac{S}{\sqrt{n}}\)(估计值)

大数定律(Law of large Numbers):当随机事件发生的次数足够多时,随机事件发生的频率趋近于预期的概率。可以简单理解为样本数量越多,其平概率越接近于期望值。大数定律的条件:

  • 独立重复事件;
  • 重复次数足够多。

8.3 一个正态总体参数的估计

8.3.1 点估计

8.3.2 区间估计

8.3.2.1 总体均数\(\mu\)的置信区间估计

  1. 正态(或正态近似法)
  2. t分布法

8.3.2.2 总体方差\(\sigma^2\)的置信区间估计

8.4 两个正态总体的参数估计

8.5 小结

  1. 样本均数的中心极限定理。从任意均数等于\(\mu\),方差等于\(\sigma^2\)的一个总体中抽取样本量为\(n\)的简单随机样本,当样本量\(n\)很大时,无论总体分布形态如何,样本均数的抽样分布近似服从正态分布
  2. 样本率的中心极限定理。从“成功”率为\(\pi\)的总体中随机抽取样本量为\(n\)的样本,其样本“成功”率用\(p\)表示,\(n\pi>5\)\(n(1-\pi)>5\)时,样本率\(p\)近似服从正态分布

  1. 无偏方差:\(S^2\)作为样本方差,称之为无偏方差。样本方差是度量样本离散程度的统计量,其中n为样本量, \(\sum_{i=1}^{n}(x_i-\bar x)^2\)为偏差平方和,\(n-1\)称为偏差平方和的自由度,因为在\(\bar x\)确定后,\(x_i(i=1,2,\dots,n)\)中只有\(n-1\)个可以自由变动。↩︎