カイ二乗分布、student t分布の正規分布への漸近性

本稿では、カイ二乗分布とstudent t分布において、自由度が大きい時にそれぞれが正規分布として近似できることを確認する。

カイ二乗分布の場合

カイ二乗分布に関して、基礎的な統計学では以下の事実がよく知られている。

\(x_{1}、x_{2}、\cdots x_{n}\)が互いに独立で標準正規分布\( N(0,1) \)に従う時に $$ \chi^{2} \equiv \sum_{i=1}^{n} x_{i}^{2} $$ は自由度\(n\)のカイ二乗分布に従う。

ここで、\(x_{i} \sim N(0,1)\)の場合には簡単な計算から\(E(x_{i}^{2})=1、V(x_{i}^{2})=2\)が示せるので、期待値と分散の線型性から $$ E(\chi^{2})=n、V(\chi^{2})=2n $$ が導ける。また中心極限定理から\(n\)が十分大きくなると\(\chi^{2}\)は上記期待値と分散を持つ正規分布に従うことがわかる。自由度を変えてカイ二乗分布を比較したものを以下に示す。なお、ここでは分布同士を比較しやすいように\(\overline{\chi^{2}}=\chi^{2}/ndf\)の分布としてプロットしている。したがって\( E(\overline{\chi}^{2})=1、V(\overline{\chi^{2}})=\frac{2}{n}\)となるので、分布の幅はだんだん狭くなっていく。

f:id:salpik:20190506233015p:plain
自由度を変えた時の\(\chi^{2}\)/ndfの分布の比較。自由度が大きくなると正規分布に近づいていっていることが見てとれる。

student t 分布の場合

student \(t\)分布は、母集団の分散が未知の場合に標本分散で置き換えて正規化するときに出てくる概念である。すなわち、

母平均\(\mu\)の母集団から取得した標本に対して、標本平均を\(\overline{X}\)、標本分散を$s^{2}$とすると、 $$ t = \frac{\overline{X}-\mu}{\sqrt{s^{2}}/n} $$ は自由度\(n-1\)のstudent \(t\)分布に従う。

自由度が大きくなると、標本分散は母集団の分散とほぼ同じ値になってくるので、\(t\)の値は正規分布に従うようになってくる。自由度を変えてstudent \(t\)分布を比較したのが下の図である。自由度が大きくなると標準正規分布に近づいていくことが確認できる(student \(t\)の場合はカイ二乗分布と違って分布の幅は狭くなっていかない)

f:id:salpik:20190506234031p:plain
自由度を変えた時のstudent t分布の比較。点線は標準正規分布を表す。自由度が大きくなると標準正規分布に近づいていっていることが見てとれる。

積算確率の推移プロット

カイ二乗やstudent \(t\)の値を使って検定を行うときは、95%や99%などの有意水準レベルとの比較を行うことになる。カイ二乗分布とstudent \(t\)分布において、有意水準レベルが自由度に対してどのように推移するかプロットした。注意すべきは、どちらも自由度が増えるに従って曲線が漸近していくように見えているが、カイ二乗分布有意水準レベルはどんどん狭くなっていくのに対して、student t分布の方は正規分布有意水準レベルに近づいていきどんどん狭くなっていくわけではないということである。

f:id:salpik:20190506235257p:plain
カイ二乗分布有意水準レベルの推移。自由度が増えると有意水準レベル(例えば5%と95%のカイ二乗値の差)がどんどん狭くなっていく。
f:id:salpik:20190506235434p:plain
student t分布の有意水準レベルの推移。自由度が増えると有意水準レベルは正規分布のものに近づいていく。