Chapter 8 参数估计
8.1 统计量
统计量实际上是一种对样本数据信息的压缩。一个好的统计量,应该能把样本中包含总体的信息全部提炼出来,而不损失任何信息,这样的统计量称为充分统计量(sufficient statistic)。
8.2 抽样分布
8.2.1 样本均数\(\bar X\)的抽样分布
抽样误差是抽样研究固有的属性,不可避免,它是由个体变异和抽样共同引起的。
- 总体方差已知,或总体方差未知但样本量足够大时
\[\bar X \sim N(\mu,\sigma_{\bar X}^2)\] 将\(\bar X\)标准化,有: \[U=\frac{\bar X-\mu}{\sigma_{\bar X}}=\frac{\bar X-\mu}{\sigma_ X/\sqrt{n}}\] U为标准化随机变量,\(U\sim N(0,1)\)。
若从一个非正态总体中随机抽样,且样本量足够大\((n\geq30)\),样本均数\(\bar X\)的抽样分布又该如何?
中心极限定理(Central limit theorems):中心极限定理指的是给定一个任意分布的总体\(X\),只要存在有限的方差\(\sigma^2(\sigma^2\neq0)\),则当样本量n足够大时,样本均数\(\bar X\)的抽样分布将近似的服从均数为\(\mu\)和方差为\(\sigma_{\bar X}^2\)的正态分布。 \[\bar X\simeq N(\mu,\frac{\sigma^2}{n})\] 在大样本量条件下,由于样本方差\(S^2\)对总体方差\(\sigma^2\)的估计误差非常小,实践中我们可以直接用\(S^2\)替代\(\sigma^2\)进行计算。
每次从这些总体中随机抽取\(n\)个抽样,一共抽\(m\)次。然后把这\(m\)组抽样分别求出平均值。这些平均值的分布接近正态分布。
8.2.2 样本方差\(S^2\)的抽样分布
\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(v)\] \(\chi^2\)分布式赫尔默特(F.R. Helmert)于1875年研究来自正态总体的样本方差的抽样分布时得出的,其密度函数为: \[f_v(x)=\begin{cases} \frac{1}{2^{\frac{v}{2}}\Gamma\left(\frac{v}{2}\right)}y^{\frac{v}{2}-1}\mathrm{e}^{-\frac{\chi^2}{2}},&\chi^2>0\\ 0,&\chi^2\leq0\end{cases}\] \(\chi^2\)分布和\(t\)分布一样,是依赖于参数(自由度)的一簇分布。随着自由度的增加,其分布曲线由正偏态分布趋近于正态分布。
8.2.3 样本率的抽样分布
率的统计指标 | 计算公式 |
---|---|
样本率\(p\)的总体均数 | \(\mu_{p}=\pi\) |
样本量\(p\)的方差 | \(\sigma_p^2=\frac{\pi(1-\pi)}{n}\)(理论值);\(S_p^2=\frac{p(1-p)}{n}\)(估计值) |
样本率\(p\)的标准差 | \(\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}\)(理论值);\(S_p=\sqrt{\frac{p(1-p)}{n}}\)(估计值) |
率的标准误 | \(\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}\)(理论值);\(S_p=\sqrt{\frac{p(1-p)}{n}}\)(估计值) |
8.2.4 样本均数及其抽样分布
均数的统计指标 | 计算公式 |
---|---|
样本均数 | \(\bar X=\frac{\sum_\limits{i=1}^{n}X_i}{n}\) |
样本方差 | \(\sigma^2=\frac{\sum_\limits{i=1}^{n}(\mu-\bar \mu)^2}{n}\)(理论值);\(S^2=\frac{\sum_\limits{i=1}^{n}(X_i-\bar X)^2}{n-1}\)(估计值) 1 |
样本均数标准误(SE) | \(\sigma_{\bar X}=\frac{\sigma}{\sqrt{n}}\)(理论值);\(S_{\bar X}=\frac{S}{\sqrt{n}}\)(估计值) |
大数定律(Law of large Numbers):当随机事件发生的次数足够多时,随机事件发生的频率趋近于预期的概率。可以简单理解为样本数量越多,其平概率越接近于期望值。大数定律的条件:
- 独立重复事件;
- 重复次数足够多。
无偏方差:\(S^2\)作为样本方差,称之为无偏方差。样本方差是度量样本离散程度的统计量,其中n为样本量, \(\sum_{i=1}^{n}(x_i-\bar x)^2\)为偏差平方和,\(n-1\)称为偏差平方和的自由度,因为在\(\bar x\)确定后,\(x_i(i=1,2,\dots,n)\)中只有\(n-1\)个可以自由变动。↩︎