第六章 统计量与抽样分布
6.0 引入
前面我们所学的都在概率论的范畴内,我们知道如果重复随机试验足够多次,就可以用频率估计概率,并且我们知道了如何通过已知的概率来推算一些事件发生的概率。
但是现实中我们有时候很难完成足够多的随机试验,或者即使可以但是不允许完成。这时候我们就需要借助数理统计,以部分估计全体,来实现频率估计概率。
6.1 随机样本与统计量
6.1.1 总体与样本
在数理统计中,研究对象的全体称为总体,组成总体的每个元素被称为个体。
特别地,总体是某一数量指标的全体,是具有确定分布的随机变量。
从总体中抽取有限个体的过程称为抽样,随机抽取的n个个体的集合\((X_1,X_2,\dots,X_n)\)称为随机样本,其中n为样本容量。
一个简单随机样本\((X_1,X_2,\dots,X_n)\)需要满足以下两个条件:
- 独立性:\(X_1,X_2,\dots,X_n\)是相互独立的随机变量。
- 代表性:每一个\(X_i\)都与总体\(X\)有相同的分布函数。
产生简单随机样本的抽样称为简单随机抽样。
为了保证独立性的要求,采用有放回抽样才能获得简单随机样本,但如果总体容量足够大,无放回抽样所得样本可以近似看作简单随机样本。
6.1.2 统计量
统计量
不含任何未知参数的样本的函数。
设\((X_1,X_2,\dots,X_n)\)为取自总体\(X\)的样本,常用的统计量如下:
- 样本均值: \(\displaystyle \overline{X} = \frac{1}{n}\sum^n_{i=1}X_i\)
- 样本方差: \(\displaystyle S^2 = \frac{1}{n-1}\sum^n_{i=1}(X_i-\overline{X})^2\),\(S\)为样本标准差。
- 样本k阶(原点)距: \(\displaystyle A_k = \frac{1}{n}\sum^n_{i=1}X^k_i\quad (k = 1,2,\cdots)\)
- 样本k阶中心距: \(\displaystyle B_k = \frac{1}{n}\sum^n_{i=1}(X_i - \overline{X})^k\quad (k = 1,2,\cdots)\)
通常我们将样本均值\(\overline{X}\)作为总体期望的估计,将样本方差\(S^2\)作为总体方差的估计。
当然,我们也可以用\(B_2\)估计总体方差的估计,它与样本方差的区别是:样本方差是对总体方差的无偏估计,样本2阶中心距是对总体方差的有偏估计。
显然,样本均值是总体期望的无偏估计。
下面将说明为什么样本方差对总体方差的估计是无偏估计:
设有随机变量序列\(X_1,X_2,\dots,X_n\)为总体\(X\)的一个样本,有\(E(X) = \mu\),\(Var(X) = \sigma^2\),那么样本方差的数学期望可知:
我们总结有以下结论:
- \(E(\overline{X}) = E(X)\)
- \(Var(\overline{X}) = \frac{Var(X)}{n}\)
- \(E(S^2) = Var(X)\)
这里就前文简略带过的分位数的概念再做一个强调:
设\(X\sim N(0,1)\),若\(z_\alpha\)满足条件\(P\{X>z_\alpha\}=\alpha\),则称\(z_\alpha\)为该标准正态分布的上侧\(\mathbf{\alpha}\)分位数。
6.2 常见的分布
在一般情况下,我们要判断随机抽样得到的样本点的精确分布是很困难的。但是,如果我们的统计量在总体上大致符合正态分布,我们有常见的三种分布:\(\chi^2\)分布,\(t\)分布与\(F\)分布来精确描述其分布!
6.2.1 χ²分布
定义:设\(X_1,X_2,\cdots,X_n\)为独立同分布的随机变量,且都服从标准正态分布\(N(0,1)\),记为:
则称\(Y\)服从自由度为\(n\)的\(\chi^2\)分布,记为\(Y\sim \chi^2(n)\)。
特别地,标准正态分布的平方即是自由度为1的\(\chi^2\)分布,当自由度\(n\)足够大的时候,\(\chi^2\)分布可以近似为正态分布。
\(\chi^2\)分布的密度函数如下:
以下我们给出\(\chi^2\)分布的一些良好性质:
- 可加性:设\(Y_1\sim\chi^2(m),Y_2\sim\chi^2(n),m,n\geq 1\),且两者相互独立,则\(Y_1 + Y_2 \sim\chi^2(m+n)\)。
- 数学期望和方差:设\(Y\sim\chi^2(n)\),则, $$ E(Y)=n,\quad Var(Y)=2n $$ 这是一个非常好用的性质。
-
分位数:对于给定的正数\(\alpha,0<\alpha<1\),称满足条件
\[ P\{\chi^2>\chi^2_\alpha(n)\}=\int^{+\infty}_{\chi^2_\alpha(n)}f_{\chi^2}(x){\rm d}x =\alpha \]的\(\chi^2_\alpha(n)\)为\(\chi^2(n)\)分布的上(侧)\(\alpha\)分位数。
下举一个例题:
设总体\(X\sim N(\mu,\sigma^2)\),其中\(\mu,\sigma\)已知,\((X_1,X_2,\cdots,X_n\)是取自总体\(X\)的样本,求:
- 统计量\(\displaystyle\frac{1}{\sigma^2}\sum^n_{i=1}(X_i-\mu)^2\)的分布。
- 设\(n\geq 5\),若\(a(X_1-X_2)^2+b(2X_3-X_4-X_5)^2\sim\chi^2(k)\),求\(a,b,k\)的值。
确定χ²分布的一般步骤
6.2.2 t分布
定义:设\(X\sim N(0,1),Y\sim\chi^2(n)\),并且\(X, Y\)相互独立,则称随机变量\(\displaystyle t=\frac{X}{\sqrt{Y/n}}\),服从自由度为\(n\)的\(t\)分布,记为\(t\sim t(n)\)。
一个有趣的小故事
据说这个公式是当时一个法国酿酒厂的工人发现的,由于怕自己提出的新理论打了学术界其他大牛的脸,遭到打击报复。他发表\(t\)分布的论文署名是"student"。后来人们为了纪念他的低调,就将这个分布的字母小写了,这个分布也被称为学生氏分布。
\(t\)分布的密度函数如下:
\(t\)分布有如下良好性质:
- 对称性:\(t\)分布的密度函数\(f_t(x)\)是偶函数。(所以早期学术界经常认为其是正态分布)
-
正态分布近似性:由\(t\)分布的密度函数可以得到
\[ \lim_{n\rightarrow+\infty}f_t(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2} \]即当\(n\)足够大的时候,\(t\)分布近似于标准正态分布\(N(0,1)\)。 + 分位数:对于给定的正数\(\alpha,0<\alpha<1\),称满足条件
\[ P\{t>t_\alpha(n)\} = \int^{+\infty}_{t_\alpha(n)}f_t(x){\rm d}x = \alpha \]的\(t_\alpha(n)\)为\(t(n)\)分布的上(侧)\(\alpha\)分位数。
6.2.3 F分布
设\(X\sim\chi^2(n_1),Y\sim\chi^2(n_2)\),且两者相互独立,则称随机变量
服从第一自由度为\(n_1\),第二自由度为\(n_2\)的\(F\)分布,记为\(F\sim F(n_1,n_2)\)。
其中,\(F(n_1, n_2)\)分布的密度函数为:
其中,\(B(n_1/2,n_2/2)\)为贝塔函数。定义为:
\(F\)分布有如下良好的性质:
- 若\(F\sim F(n_1, n_2)\),则\(\displaystyle\frac{1}{F}\sim F(n_2, n_1)\)。
- 若\(X\sim t(n)\),则\(X^2\sim F(1, n)\)
-
\(F\)分布分位数。对于给定正数\(\alpha, 0<\alpha<1\),称满足条件
\[ P\{F>F_\alpha(n_1, n_2)\} = \int^{+\infty}_{F_\alpha(n_1, n_2)}f_F(x){\rm d}x = \alpha \]的\(F_\alpha(n_1, n_2)\)为\(F(n_1, n_2)\)分布的上(侧)\(\alpha\)分位数。
- 可以证明, $\displaystyle F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)} $
6.3 正态总体的抽样分布
正态总体的各个统计量都有很良好的性质,它们是参数估计和假设检验的理论基础,我们在下面逐个介绍:
6.3.1 正态总体抽样的样本均值
设\(X_1,X_2,\cdots,X_n\)为来自正态总体\(N(\mu,\sigma^2)\)的简单随机样本,\(\overline{X}\)是样本均值,则有:
等价的,有,
6.3.2 正态总体抽样的样本方差
设\(X_1,X_2,\cdots,X_n\)为来自正态总体\(N(\mu,\sigma^2)\)的简单随机样本,\(\overline{X}\)是样本均值,\(S^2\)为样本方差,则有:
并且\(\displaystyle\overline{X}\)与\(S^2\)完全独立。
注意:
以上性质并非简单的函数对应关系,即\(\displaystyle\frac{nS^2}{\sigma^2}\nsim\chi^2(n)\)。
但是以下结论是正确的:
同时,常数不存在\(\chi^2\)分布。
6.3.3 正态总体抽样的样本均值与方差
设\(X_1,X_2,\cdots,X_n\)为来自正态总体\(N(\mu,\sigma^2)\)的简单随机样本,\(\overline{X}\)是样本均值,\(S^2\)为样本方差,则有:
联系正态总体抽样均值的性质,我们做对比,
在使用样本方差估计总体的时候,我们采用的是\(t\)分布而不是正态分布。
当然如果我们的样本足够大,自由度\(n-1\)也就足够大,我们做的分布估计也就越接近与总体的正态分布,这和我们统计中以样本估计总体的思路是相同的。
6.3.4 两个正态总体抽样的样本均值与方差
设\(X_1,X_2,\cdot,X_{n_1}\)和\(Y_1,Y_2,\cdots,Y_{n_2}\)分别为来自正态总体\(N(\mu_1,\sigma^2_1)\)和\(N(\mu_2,\sigma^2_2)\)的简单随机样本,\(\overline{X}\)和\(\overline{Y}\)分别为样本均值,\(S^2_1\)和\(S^2_2\)分别为样本方差,则有:
特别地,当\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)时,
其中,
证明如下:
由\(\chi^2\)分布的可加性,得:
所以我们有,
6.3.5 例题
设\(X\sim N(\mu,\sigma^2)\),其中\((X_2,X_2,\cdots,X_n)\)是一样本,求\(E(S^2),Var(S^2),Var(\overline{X}S^2)\)。
首先,我们有,
不难知道,
同样可得,
要计算\(Var(\overline{X}S^2)\),首先由\(Var(X) = E(X^2) - E^2(X)\),得:
对于后者,我们有,
对于前一项,我们有,