ピアソン積率相関係数について
定義
データがD={(x1,y1),(x2,y2),…,(xn,yn)}で与えられた場合、変数xとyの相関係数は
rxy=∑i=1n(xi−xˉ)2/n∑i=1n(yi−yˉ)2/n∑i=1n(xi−xˉ)(yi−yˉ)/n=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
と定義されます。ここで、共分散は
Cxy=n∑i=1n(xi−xˉ)(yi−yˉ)
であり、標準偏差が
Sx=n∑i=1n(xi−xˉ)2
です。なので、ピアソン積率相関係数は
rxy=SxSyCxy
のように簡単に表すことができます。
標準化の観点からみた相関係数
次のように、データxiをその平均値xˉと標準偏差Sxを使って線形変換することを、標準化するといういいます。具体的には
zi=Sxxi−xˉ
と表すことができます。このように変換する動機は、新しく得られたデータziの平均が0にシフトし、標準偏差が1になるためです。
さて、xi,yiの標準化をそれぞれzi,wiとすると、ピアソン積率相関係数は
rxy=SxSy∑i=1n(xi−xˉ)(yi−yˉ)/n=n1i=1∑nziwi
のように表されます。つまり、ピアソン積率相関係数とは標準化されたデータの共分散に等しいことがわかります。
とりうる範囲
ピアソン積率相関係数rxyはとりうる範囲は−1≤rxy≤1です。これは次のように示されます。
[proof]
n1i=1∑n(zi±wi)2=n1i=1∑n(zi2±2ziwi+wi2)=n1i=1∑nzi2±n2i=1∑nziwi+n1i=1∑nwi2=1±rxy+1=2(1±rxy)
左辺は常に正であるため、右辺も常に正です。なので−1≤rxy≤1が成り立つことがわかりました。□
線形変換の不変性
x′=ax+bとy′=cy+dとデータx,yにそれぞれ線形変換を施すと、ピアソン積率相関係数は
rx′y′=Sx′Sy′Cx′y′=∣a∣∣c∣SxSynac∑i=1n(xi−xˉ)(yi−yˉ)=∣a∣∣c∣acrxy
となるので、ac>1のとき、データの線形変換の下でピアソン積率相関係数は不変です。
参考文献