確率分布(二項分布/ポアソン分布/正規分布/t分布/カイ二乗分布)

statistics

二項分布

確率\(p\)で起きる事象が\(n\)回の試行で\(x\)回起きる確率関数の離散的確率分布\(B[n,p]\)。 期待値は\(np\)で、分散は\(np(1-p)\)。

$$ f(x) = {}_nC_x p^x (1-p)^{n-x} \quad (0 \leqq x \leqq n) $$

ポアソン分布

試行回数\(n\)が多いと二項分布の\({}_nC_x\)の部分の計算が困難になってしまうが、もし\(p\)が小さければ代わりにポアソン分布で近似することができる。 \(n = 50\)ぐらいのとき\(np \leqq 5\)以下が目安。期待値も分散も\(np=\mu\)。

$$ f(x) = \lim_{n \to \infty, p \to 0} {}_nC_x p^x (1-p)^{n-x} = \frac{\mu^x}{x!}e^{-\mu} $$

正規分布

正規分布は平均値\(\mu\)を最大値とし、左右対称な釣鐘型をしている連続的確率分布\(N[μ,\sigma^2]\)。 二項分布の\(n\)を大きくしていくと正規分布に近づいていき、\(p = 0.5\)であれば、\(n = 10\)の二項分布\(B[10,0.5]\)でも\(N[5,2.5]\)の良い近似が得られる。逆に\(n\)が大きな二項分布の近似として正規分布を用いることもできる。

$$ f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) $$

\(N[0,1]\)を標準正規分布と呼び、非標準分布に従う確率変数\(x\)を、標準正規分布に従う\(z\)に変換することを標準化変換という。

$$ z = \frac{x - \mu}{\sigma} $$

標準正規分布だと確率変数が\(z\)よりも小さくなる確率

$$ \int_{-\infty}^{z} f(x) dx $$

の値をまとめた正規分布表を用いて信頼区間を求めることができるようになる。

また、母平均\(μ\)、母分散\(\sigma^2\)の任意な分布から\(n\)個の標本をとったときの平均\(\bar{X}\)は\(N[\mu, \frac{\sigma^2}{n}]\)に従う。言い換えれば、標本平均と母平均の誤差は\(N[0, \frac{\sigma^2}{n}]\)となる。これを中心極限定理という。 この分布の分散の平方根\(\frac{\sigma}{\sqrt{n}}\)を標準誤差(SE)と呼ぶ。この分布を標準化変換すると次のようになる。

$$ Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} $$

一方、標本分散\(s^2\)の期待値は次の式で表され、標本平均が標本に合わせて偏るために母分散よりも少し小さくなる。

$$ E[s^2] = \frac{n-1}{n}\sigma^2 $$

これを変形した次の\(\hat{\sigma}^2\)は不偏分散と呼ばれ、\(n\)の代わりに\(n-1\)で割った標本分散となっている。 特に標本数が少ない場合は母分散と標本分散が大きく乖離してしまうので不偏分散を用いる。

$$ \hat{\sigma}^2 = \frac{n}{n-1} E[s^2] = \frac{1}{n-1} \Sigma (x_i - \bar{X})^2 $$

カイ二乗分布

自由度\(k\)の\(\chi^2\)分布は正規母集団から抽出された\(k\)個の標本から計算した次の確率変数Zの分布。 \(\chi^2\)分布表で母分散\(\sigma^2\)の区間を推定することができる。

$$ Z = \frac{1}{\sigma^2} ((X_1 - \mu)^2 + (X_2 - \mu)^2 + … + (X_k - \mu)^2) $$

また、母平均\(μ\)の代わりに標本平均\(\bar{x}\)を用いた次の\(Z\)は自由度\(k-1\)の\(\chi^2\)分布に従う。

$$ Z = \frac{1}{\sigma^2} ((X_1 - \bar{X})^2 + (X_2 - \bar{X})^2 + … + (X_k - \bar{X})^2) = \frac{ks^2}{\sigma^2} $$

$$ f(x;k) = \frac{1}{2^{\frac{k}{2}}\Gamma(\frac{k}{2})}x^{\frac{k}{2}-1}e^{-\frac{x}{2}} \quad (x > 0) $$

t分布

標準化変換を標本分散で行った次の統計量\(t\)は十分な標本数があれば\(N[0,1]\)に従うと言えるが、標本数が少ないと標本分散が母分散から大きく外れてしまうのでそう言えなくなってしまう。そんな場合に用いることができるのがt分布で、\(Z\)が\(N(0,1)\)に、\(Y\)が自由度\(k\)の\(\chi^2\)分布に従うとき\(t\)は自由度\(k\)のt分布に従う。これによりt分布表を用いて母平均\(μ\)の区間を推定したり、母集団が正規分布であることを検定することができる。

$$ t = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} = \frac{\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{\frac{(n-1)s^2}{\sigma^2}}{n-1}}} = \frac{Z}{\sqrt{\frac{Y}{k}}}$$

統計的仮説検定 - sambaiz-net

\(\Gamma\)はガンマ関数で階乗の概念を複素数全体に拡張したもの。\(n\)が自然数のとき \(\Gamma(n+1)=n!\) になる。

$$ f(t;k) = \frac{\Gamma(\frac{k+1}{2})}{\sqrt{k\pi}\Gamma(\frac{k}{2})}(1+\frac{t^2}{k})^{-\frac{k+1}{2}} $$

参考

統計学入門

統計学入門 - 東京大学出版会

t分布 - Wikipedia