相関のある2次元正規分布の再生性

統計の教科書には、互いに独立な正規分布について再生性が成立するという定理の紹介をよく見る。すなわち、

2つの確率変数 $X$ 、 $Y$ がそれぞれ $X \sim N(\mu_{x}, s_{x}^{2})$ 、 $Y \sim N(\mu_{y}, s_{y}^{2})$ の正規分布に従う時、その和も正規分布に従い、 $X+Y \sim N(\mu_{x}+\mu_{y}, s_{x}^{2}+s_{y}^{2})$ となる。

ただ、 $X$ と $Y$ が独立ではなく相関関係を持つ正規分布に従う時に、再生性が成立するかどうかの記述がなかった。そこで自分で調べてみた。

相関がある場合の2変数正規分布

まず、相関がある場合の2変数正規分布の確率密度関数は以下のように記述される。

$\begin{eqnarray} f(X=x,Y=y) &=& \frac{\displaystyle 1}{\displaystyle 2\pi\sqrt{|\Sigma|} } \exp \left( -\frac{1}{2}(\vec{x}-\vec{\mu})^{T} \Sigma^{-1}(\vec{x}-\vec{\mu}) \right) \\ \vec{x} &=& \left( \begin{array}{c} x \\\ y \end{array} \right) \\ \vec{\mu} &=& \left( \begin{array}{c} \mu_{x} \\\ \mu_{y} \end{array} \right) \end{eqnarray}$

まず、上記の確率密度関数に従い乱数を振って確率変数 $(X,Y)$ を発生させた。 $\mu_{x}=140$ 、 $\mu_{y}=130$ 、 $s_{x}=15$ 、 $s_{y}=15$ で相関係数 $\rho = 0.6$ とし、1万点発生させて散布図としてプロットしたのが下図である。

f:id:salpik:20190505002450p:plain — 相関のある2次元正規分布の散布図（$ \mu_{x}=140 $、$ \mu_{y}=130 $、$ s_{x}=15$、$ s_{y}=15$、相関係数0.6を仮定）

ここから、$ X+Y $を計算し、その度数分布を作成した。この分布は正規分布でよくフィッティングできているため、相関がある場合でも再生性が成立することが予想される。ちなみに、フィッティング結果として平均が270、標準偏差が26程度となった。

f:id:salpik:20190505104315p:plain — X+Yの度数分布（赤線は正規分布のフィッティング結果を表す）

数学的な証明

2変数に相関がある場合でも、正規分布の再生性が成立していることを数学的に証明する。そのためには、$ A=X+Y$とおいたときに$ P(A=a) $が$a$に対して正規分布の形、すなわち $$ P(A=a) = \frac{1}{\sqrt{2\pi s_{A}}} \exp \left[ -\frac{(a-\mu_{A})}{2s_{A}^{2}} \right] $$ という形で表されることを示せば良い。

$$ \eqalign{ P(A=a) &= \int_{\infty}^{\infty} dx\ f(X=x,Y=a-x) \\ &\propto \int_{\infty}^{\infty} dx\ \exp \left( -\frac{1}{2} (x-\mu_{x}, a-x-\mu_{y}) \left(\begin{array}{cc} s_{x}^{2} & \rho s_{x} s_{y} \\ \rho s_{x} s_{y} & s_{y}^{2} \ \end{array} \right)^{-1} \left(\begin{array}{c} x-\mu_{x} \\ a-x-\mu_{y} \end{array} \right) \right) \\ &\equiv \int_{\infty}^{\infty} dx\ \exp (F) } $$ expの中身を$F$と置いておく。

$$ \eqalign{ F &= -\frac{1}{2s_{x}^{2}s_{y}^{2}(1-\rho^{2})}(x-\mu_{x}, a-x-\mu_{y}) \left(\begin{array}{cc} s_{y}^{2} & -\rho s_{x} s_{y} \\ -\rho s_{x} s_{y} & s_{x}^{2} \ \end{array} \right) \left(\begin{array}{c} x-\mu_{x} \\ a-x-\mu_{y} \end{array} \right) \\ &= -\frac{1}{2s_{x}^{2}s_{y}^{2}(1-\rho^{2})} \left[ s_{y}^{2}(x-\mu_{x}^{2})^{2} -2\rho s_{x}s_{y}(x-\mu_{x})(a-x-\mu_{y}) + s_{x}^{2}(a-x-\mu_{y})^{2} \right] } $$ 式変形の方針として、まず$x$でガウス積分を行うために$x$について平方完成を行う。そのあと残った項について（最終的に$a$について正規分布の形になることを見越して）$a$について整理し平方完成する。 $$ \eqalign{ F &= -\frac{1}{2s_{x}^{2}s_{y}^{2}(1-\rho^{2})} \left[ (s_{x}^{2}+2\rho s_{s}s_{y}+s_{y}^{2})x^{2}+2\left( -s_{x}^{2}(a-\mu_{y})\rho s_{x} s_{y} (a-\mu_{y})+\rho s_{x}s_{y}\mu_{x}+s_{y}^{2}\mu_{x}\right)x + s_{y}^{2}\mu_{x}^{2}+2\rho s_{x} s_{y} \mu_{x}(a-\mu_{y})+s_{x}^{2}(a-\mu_{y})^{2} \right] \\ &= -\frac{s_{x}^{2}+2\rho s_{x} s_{y}+s_{y}^{2}}{2s_{x}^{2}s_{y}^{2}(1-\rho^{2})} \left(x+\frac{-(s_{x}^{2}+\rho s_{x} s_{y})a+\rho s_{x} s_{y}\mu_{y}-\rho s_{x} s_{y}\mu_{x}+s_{x}^{2}\mu_{y}-s_{y}^{2}\mu_{x}}{s_{x}^{2}+2\rho s_{x} s_{y}+s_{y}^{2}} \right)^{2} - \frac{(a-\mu_{x}-\mu_{y})^{2}+C}{2(s_{x}^{2}+2\rho s_{x} s_{y}+s_{y}^{2})} } $$ ここで、$x$にも$a$にも依存しない項を$C$としてまとめた。ここまで変形すると、ガウス積分 $$ \int_{\infty}^{\infty}dx\ e^{-A(x+B)^{2}} = \sqrt{\frac{\pi}{A}} $$ が使えて上式の第1項は$x$で積分するとただの定数となる。したがって、整理すると $$ P(A=a) \propto \exp \left[ -\frac{(a-\mu_{x}-\mu_{y})^{2}}{2(s_{x}^{2}+2\rho s_{x} s_{y}+s_{y}^{2})} \right] $$ この結果から、確率変数$A$も正規分布に従うことが示されて、その平均と分散はそれぞれ $$ \eqalign{ \mu_{A} &=\mu_{x}+\mu_{y} \\ s_{A}^{2} &=s_{x}^{2}+2\rho s_{x} s_{y}+s_{y}^{2} } $$ と表される。

ちなみに、上で紹介したケースで$A=X+Y$の期待値と標準偏差を計算すると、$ \mu_{A}=\mu_{x}+\mu_{y}=270 $、$ s_{A} = \sqrt{15^{2}+15^{2}+2\times 0.6\times 15^{2}}=26.8 $ となり、フィッティングの結果とおおよそ一致していることがわかる。

以上の考察から、2つの変数が相関関係を持ちながら正規分布に従う場合でも、その和は正規分布に従うことがわかった。