Skip to content

第八章 假设验证

约 2681 个字 预计阅读时间 9 分钟

8.1 假设检验的基本思想

8.1.1 引入

假设检验是数理统计的一类基本而重要的问题,包含两种情况:

  1. 已知总体分布的形式,需对其中的未知参数给出假设检验——参数检验
  2. 总体的分布形式完全未知的情况下,对总体的分布或数字特征进行假设检验——非参数检验

从实际角度出来,我们可以这么理解假设检验,对于总体分布已知的情况:

假设某种油漆的干燥时间服从\(N(\mu_0,\sigma^2_0)\),现抽取9个样本,获得其干燥时间为\(\{X_1,X_2,\cdots,X_n\}\),要探究该批次油漆的平均干燥时间是否与以往有显著差异。

首先我们通过统计与计算,必然可以知道的是样本均值为\(\overline{x}\),并且很多时候\(\overline{x}\neq\mu_0\),现在的问题是,我们是否认为\(\overline{x}\approx\mu_0\)?换句话说,我们是否认为这种偏差是样本随机带来的?或者认为其证明了原来对总体的假设不成立,是错误的?

从假设检验的角度来说,我们是接受原假设\(H_0:\mu=\mu_0\),还是备择假设\(H_0:\mu\neq\mu_0=\overline{x}\)

8.1.2 检验统计量和拒绝域

用于判断原假设\(H_0\)是否成立的统计量\(T=T(X_1,X_2,\cdots,X_n)\)称为对应假设的检验统计量,对应于拒绝原假设\(H_0\)时,样本值的范围称为拒绝域,记为\(W\),其补集称为接受域,记为\(\overline{W}\)

8.1.3 两类错误

有样本判断总体,无法避免因为样本的随机性而导致的错误判断。

可能发生的错误一共有两种:

  1. 假设原假设\(H_0\)成立,实际上却拒绝了它,这种错误称为第一类错误,记为\(\alpha\)
  2. 假设原假设\(H_0\)不成立,实际上却接受了它,这种错误称为第二类错误,记为\(\beta\)

具体的概率表示有:

\[ \begin{aligned} &\alpha = P(\text{拒绝}H_0|H_0\text{成立})\\ &\beta = P(\text{接受}H_0|H_0\text{不成立}) \end{aligned} \]

结合前面油漆干燥时间的例题,我们可以做如下计算,首先是犯第一类错误的概率为:

\[ \begin{aligned} p_1 &= \alpha(C) = P(\text{拒绝}H_0|H_0\text{成立})\\ &= P\{|\overline{X}-\mu_0|\geq C\ |\ \mu=\mu_0\} \overset{记为}{=} P_{\mu=\mu_0}\{|\overline{X}-\mu_0|\geq C\} \\ &= P_{\mu=\mu_0}\left\{\frac{|\overline{X}-\mu_0|}{\sigma/\sqrt{n}}\geq \frac{C}{\sigma/\sqrt{n}}\right\}\\ &= 1 - P_{\mu=\mu_0}\left\{\frac{|\overline{X}-\mu_0|}{\sigma/\sqrt{n}}< \frac{C}{\sigma/\sqrt{n}}\right\}\\ &= 2 - 2\Phi\left(\frac{C}{\sigma/\sqrt{n}}\right) \end{aligned} \]

特别说明,第一类错误中假设原假设\(H_0\)为真,故我们认为总体均值\(\mu\)\(\mu_0\),同时\(\overline{X}\)为总体的矩估计与最大似然估计,所以我们认为\(\overline{X}\)服从正态分布\(N(\mu_0,\sigma^2/n)\)

犯第二类错误的概率为:

\[ \begin{aligned} p_2 &= \beta(C) = P(\text{接受}H_0|H_0\text{不成立})\\ &= P_{\mu\neq\mu_0}\{|\overline{X}-\mu_0|< C\} \\ &= P_{\mu\neq\mu_0}\left\{\mu_0 - C < \overline{X} < \mu_0 + C\right\}\\ &= P_{\mu\neq\mu_0}\left\{\frac{\mu_0 - C - \mu}{\sigma/\sqrt{n}} < \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}< \frac{\mu_0 + C - \mu}{\sigma/\sqrt{n}}\right\}\\ &= \Phi\left(\frac{\mu_0 + C - \mu}{\sigma/\sqrt{n}}\right) - \Phi\left(\frac{\mu_0 - C - \mu}{\sigma/\sqrt{n}}\right)\\ \end{aligned} \]

特别说明,第二类错误中假设原假设\(H_0\)不成立,故我们认为总体均值\(\mu\)不为\(\mu_0\),同时\(\overline{X}\)为总体的矩估计与最大似然估计,所以我们认为\(\overline{X}\)服从正态分布\(N(\mu,\sigma^2/n)\)

所以对于第二类错误的概率,我们需要知道\(\mu\)的值才能计算。

接下来我们探讨两者关系,

根据以上情况,奈曼和皮尔逊提出了奈曼—皮尔逊原则

  1. 首先控制犯第一类错误的概率,即选定常数\(\alpha\in(0,1)\),要求犯第一类错误的概率不超过\(\alpha\)
  2. 在满足第一条的前提下,选择拒绝域\(W\),使得犯第二类错误的概率\(\beta\)最小。

其中常数\(\alpha\)称为显著性水平,通常选取0.01,0.05,0.1等。

8.1.4 假设类型

原假设(零假设)\(H_0\),备择假设(对立假设)\(H_1\),关于总体参数\(\theta\)的假设有三种:

  1. 双侧假设:\(H_0:\theta=\theta_0\)\(H_1:\theta\neq\theta_0\)
  2. 右侧假设:\(H_0:\theta\leq\theta_0\)\(H_1:\theta>\theta_0\)
  3. 左侧假设:\(H_0:\theta\geq\theta_0\)\(H_1:\theta<\theta_0\)

写法约定:

  1. 等号总是在\(H_0\)一侧,甚至可以写成:
    左边检验 \(H_0:\theta=\theta_0\)\(H_1:\theta<\theta_0\)
    右边检验\(H_0:\theta=\theta_0\)\(H_1:\theta>\theta_0\)
  2. 总体参数写在前面。

8.1.5 P-值检验

P-值定义:当原假设成立时,检验统计量取比观察到的结果更为极端的数值的概率。

具体来说,用抽取出的一组样本估计总体,估计值与拒绝域的临界值越远,我们拒绝的把握就越大,检验越显著。

所以我们用P-值来衡量我们拒绝的把握程度,也就是说,如果出现比我们观察得到的结果更加极端的数据的概率已经足够小了,意味着我们观察得到的结果已经足够极端,所以我们有充分的把握拒绝原假设,因为我们的观察结果显然和原假设不符合。

所以我们总结,P-值越小,拒绝\(H_0\)的理由越充分。

对于前面例题,有如下P-检验:

8.1.6 如何写原假设和备择假设

在进行显著性假设检验时候,犯第一类错误的概率是由我们自己控制的,\(\alpha\)取得越小,则\(H_0\)为真时错误地拒绝\(H_0\)的概率就越小。

这就好像\(H_0\)被我们保护起来了,也就是我们在显著性假设检验时候,不可避免地会先优先保证不触犯第一类错误。\(H_0\)\(H_1\)的地位是不对等。

于是我们有以下原则:

  1. 优先控制犯最严重的错误的概率,将其假设为\(H_0\),即原假设。
    比如我们要试验一种新药,一种错误是将假药误认为真药,一种错误是误将真药认为假药。显然第一种错误更加严重,我们应该做如此假设:\(H_0:\)该药是要假药,\(H_1:\)该药为真药。
  2. 当两种错误差不多时候,我们倾向于维持现状,将现状假设为\(H_0\),比如“维持现状”,“无价值”等等。

8.1.7 参数的假设检验问题处理步骤

  1. 根据实际要求,提出原假设与备择假设,特别注意两者的不对等地位。
  2. 根据已知条件,选取合适的检验统计量,画出统计量概率密度草图。
  3. 按照“在原假设\(H_0\)成立时,拒绝原假设的概率不超过显著性水平\(\alpha\)”这一原则,画出统计量分布的分位数图,确定\(H_0\)拒绝域。
  4. 查分位数表,用样本观测值代入公式计算,根据样本数据是否落入拒绝域内确定是否拒绝原假设。

8.2 单个正态总体参数的假设检验

设正态总体\(X\sim N(\mu,\sigma^2)\),样本为\(X_1,X_2,\cdots,X_n\),样本均值为\(\overline{X}\),样本方差为\(S^2\),显著性水平为\(\alpha\)

8.2.1 有关参数μ的假设检验

\(\sigma^2\)已知时,对于双边检验:

\[ H_0:\mu=\mu_0,\quad H_1:\mu\neq\mu_0 \]

取检验统计量\(\displaystyle Z = \frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\),则\(H_0\)的拒绝域为:

\[ |Z| = \left|\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\right| \geq z_{\alpha/2} \]

我们称此检验为Z检验法

利用P-值判断\(H_0\)真伪:

对于给定样本观察值\(x_1,x_2,\cdots,x_n\),记检验统计量Z的取值为\(\displaystyle z_0 = \frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}\),所以有

\[ P- = P_{H_0}\left\{|Z|\geq|z_0|\right\} = 2 - 2\Phi(|z_0|) \]

将上值与显著性水平\(\alpha\)作比较,决定是否拒绝原假设。

\(\sigma^2\)未知时,对于双边检验

8.3 两个正态总体参数的假设检验

8.3.1 比较两个正态总体均值的假设检验

设正态总体\(X\sim N(\mu_1,\sigma^2_1)\)\(Y\sim N(\mu_2,\sigma^2_2)\),样本为\(X_1,X_2,\cdots,X_n\)\(Y_1,Y_2,\cdots,Y_m\),样本均值分别为\(\overline{X}\)\(\overline{Y}\),样本方差分别为\(S_X^2\)\(S_Y^2\)

考虑双侧假设问题:

\[ H_0:\mu_1=\mu_2,\quad H_1:\mu_1\neq\mu_2 \]

显然,原假设成立时,\(|\overline{X}-\overline{Y}|\)较小,所以可以检验统计量\(\overline{X}-\overline{Y}\)

\(\sigma_1\)\(\sigma_2\)已知时:

统计量\(\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\displaystyle\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)\),此时采用Z检验,拒绝域为:

\[ W = \left\{\frac{|\overline{X}-\overline{Y}|}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\geq z_{\alpha/2}\right\} \]

P-值为:

\[ P-值 = P_{H_0}\{|Z|\geq z_0\} = 2 - 2\Phi(|z_0|) \]

\(\sigma_1^2=\sigma_2^2=\sigma^2\)且未知时:

取统计量为:

\[ T = \frac{\overline{X}-\overline{Y}}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \]

显然,\(T\sim t(n_1+n_2-1)\),其中

\[ S_w^2 = \frac{(n_1-1)S_X^2+(n_2-1)S_Y^2}{n_1+n_2-2} \]

则检验拒绝域为:

\[ W = \{|T|\geq t_{\alpha/2}(n_1+n_2-2)\} \]

P-值为:

\[ P-值 = P_{H_0}\{|T|\geq t_0\} = 2 - 2\Phi(|t_0|) \]

8.5 拟合优度检验

前面的讨论都建立在正态分布的基础下进行的假设检验,但是在实际情况中,我们往往不知道分布的类型。所以在检验参数前,我们往往需要先检验一下分布类型。

假设\(F(x)\)为总体的位置分布函数,\(F_0(x)\)是某种已知类型的分布函数,但可能存在未知参数,需检验假设:

\[ H_0: F(X) = F_0(x) \]

如果\(F_0(x)\)存在未知参数,先用最大似然估计估计出参数,再进行检验。

在统计学中,有关这类分布的假设检验称为拟合优度检验

\(\chi^2\)检验法的基本思路:

  1. 从总体取得样本容量为n的样本,将其分为两两不相交的子集\(A_1,\dots,A_2\)
  2. \(n_i(i=1,2,\dots,k)\)记为样本观测值\(x_1,x_2,\dots,x_n\)中落在\(A_i\)的个数,则在n次实验中\(A_i\)发生的频率\(n_i/n\),且有\(n_1+\dots+n_k = n\)
  3. \(H_0\)为真时,计算事件\(A_i\)发生的概率\(p_i = P_{H_0}(A_i), i=1,2,\dots,k\),其中\(np\)称为理论频数,而\(n_i\)是实际频数,且有\(n_i\sim B(n,p_i)\)
  4. \(H_0\)的拒绝域形式为:\(\chi^2 = \displaystyle\sum^k_{i=1}\frac{(n_i-np_i)^2}{np_i} = \sum^k_{i=1}\frac{n_i^2}{np_i} - n \geq c\)

由上,当原假设\(H_0\)成立的时候,\(\chi^2\)值偏小,故有拒绝域

\[ W = \{\chi^2\geq C\} \]

皮尔逊证明到:若n充分大,则当\(H_0\)为真时,统计量\(\chi^2\)近似于服从\(\chi^2(k-r-1)\)分布,其中\(k\)为分类数,\(r\)\(F_0(x)\)中含有的未知参数个数。

所以在显著性水平\(\alpha\)的条件下,有关分布假设检验的拒绝域为

\[ W = \{\chi^2\geq\chi^2_\alpha(k-r-1)\} \]

通过\(P-\)值检验,则如下

\[ P-值 = P\{\chi^2(k-r-1)\geq\chi^2_0\} \]

其中\(\chi^2_0\)为检验统计量\(\chi^2\)的实际观测值。我们把\(P-\)值称为所得数据对原假设的拟合优度

Note

在实际运用中,我们通常要求样本容量大于50,切每一类的理论频数\(np_i\geq 50\),否则应该与邻类进行合并。这些都是为了保证尽可能准确的对原假设是否成立,也就是数据对原分布是否足够拟合进行检验。