戻る

ピアソン積率相関係数について

ピアソン積率相関係数について

定義

データがD={(x1,y1),(x2,y2),,(xn,yn)}{\cal D} = \{ (x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) \}で与えられた場合、変数xxyyの相関係数は

rxy=i=1n(xixˉ)(yiyˉ)/ni=1n(xixˉ)2/ni=1n(yiyˉ)2/n=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2\begin{align} r_{xy} &= \frac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) / n }{ \sqrt{ \sum_{i=1}^n (x_i - \bar{x})^2 / n \sum_{i=1}^n (y_i - \bar{y})^2 / n } } \\ &= \frac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }{ \sqrt{ \sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2 } } \end{align}

と定義されます。ここで、共分散は

Cxy=i=1n(xixˉ)(yiyˉ)n\begin{align} C_{xy} &= \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n} \end{align}

であり、標準偏差が

Sx=i=1n(xixˉ)2n\begin{align} S_x &= \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n}} \end{align}

です。なので、ピアソン積率相関係数は

rxy=CxySxSy\begin{align} r_{xy} &= \frac{C_{xy}}{S_x S_y} \end{align}

のように簡単に表すことができます。

標準化の観点からみた相関係数

次のように、データxix_iをその平均値xˉ\bar{x}と標準偏差SxS_xを使って線形変換することを、標準化するといういいます。具体的には

zi=xixˉSx\begin{align} z_i &= \frac{x_i - \bar{x}}{S_x} \end{align}

と表すことができます。このように変換する動機は、新しく得られたデータziz_iの平均が0にシフトし、標準偏差が11になるためです。

さて、xi,yix_i, y_iの標準化をそれぞれzi,wiz_i, w_iとすると、ピアソン積率相関係数は

rxy=i=1n(xixˉ)(yiyˉ)/nSxSy=1ni=1nziwi\begin{align} r_{xy} &= \frac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) / n }{ S_x S_y } \notag \\ &= \frac{1}{n} \sum_{i=1}^n z_i w_i \end{align}

のように表されます。つまり、ピアソン積率相関係数とは標準化されたデータの共分散に等しいことがわかります。

とりうる範囲

ピアソン積率相関係数rxyr_{xy}はとりうる範囲は1rxy1-1 \leq r_{xy} \leq 1です。これは次のように示されます。

[proof]

1ni=1n(zi±wi)2=1ni=1n(zi2±2ziwi+wi2)=1ni=1nzi2±2ni=1nziwi+1ni=1nwi2=1±rxy+1=2(1±rxy)\begin{align} \frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &= \frac{1}{n} \sum_{i=1}^n (z_i^2 \pm 2 z_i w_i + w_i^2) \notag \\ &= \frac{1}{n} \sum_{i=1}^n z_i^2 \pm \frac{2}{n} \sum_{i=1}^n z_i w_i + \frac{1}{n} \sum_{i=1}^n w_i^2 \notag \\ &= 1 \pm r_{xy} + 1 \notag \\ &= 2(1 \pm r_{xy}) \end{align}

左辺は常に正であるため、右辺も常に正です。なので1rxy1-1 \leq r_{xy} \leq 1が成り立つことがわかりました。\Box

線形変換の不変性

x=ax+bx^\prime = ax + by=cy+dy^\prime = cy + dとデータx,yx, yにそれぞれ線形変換を施すと、ピアソン積率相関係数は

rxy=CxySxSy=acni=1n(xixˉ)(yiyˉ)acSxSy=acacrxy\begin{align} r_{x^\prime y^\prime} &= \frac{C_{x^\prime y^\prime}}{S_{x^\prime} S_{y^\prime}} \notag \\ &= \frac{ \frac{ac}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }{ |a| |c| S_x S_y } \notag \\ &= \frac{ac}{|a| |c|} r_{xy} \end{align}

となるので、ac>1ac > 1のとき、データの線形変換の下でピアソン積率相関係数は不変です。

参考文献

戻る