2種の母集団の比較を行う2標本問題での統計量
statistics男性の身長と女性の身長といった異なる分布の2種の母集団について、その独立な標本から母集団の比較を行う問題を2標本問題(two-sample problem)という。
平均\(\mu_1\)分散\(\sigma_1^2\)の母集団と平均\(\mu_2\)分散\(\sigma_2^2\)の母集団からそれぞれ\(m,n\)個の標本を取って、その平均が\(\bar{X_1}, \bar{X_2}\)のとき、 \(\bar{X_1}, \bar{X_2}\)は独立なので分散の加法性\(V[X \pm Y] = V[X] + V[Y]\)が成り立ち、中心極限定理より正規分布になるので、\(\bar{X_1} - \bar{X_2}\)の分布は\(N(\mu_1 - \mu_2, \frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n} )\)となる。
確率分布(二項分布/ポアソン分布/正規分布/t分布/カイ二乗分布) - sambaiz-net
もし母分散が未知だが等しい場合は次のプールした分散を用いる。
$$ s^2 = \frac{\Sigma (X_i - \bar{X})^2 + \Sigma (Y_i - \bar{Y})^2}{m+n-2} = \frac{(m-1)s_1^2 + (n-1)s_2^2}{m+n-2} $$
このとき次の統計量は自由度\(m+n-2\)の\(\chi^2\)分布に従う。
$$ \frac{(m+n-2)s^2}{\sigma^2} = \frac{(m-1)s_1^2 + (n-1)s_2^2}{\sigma^2} $$
したがって、標準化変換した\(Z\)を
$$ Z = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma^2}{m} + \frac{\sigma^2}{n}}} $$
\(\sqrt{\frac{\frac{(m+n-2)s^2}{\sigma^2}}{m+n-2}}\)で割ると自由度\(m+n-2\)のt分布となり、未知の母分散\(\sigma^2\)が消せる。
$$ t = \frac{Z}{\sqrt{\frac{\frac{(m+n-2)s^2}{\sigma^2}}{m+n-2}}} = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{s^2}{m} + \frac{s^2}{n}}} $$
母分散が未知で等しくもない場合は\(\sigma_1^2, \sigma_2^2\)によらない統計量を作ることはできない。