はじめに
Landy-Szalay推定量についての計算です。小売の店舗の分布を解析するのに使いたいので計算したメモの第一弾です。
二点相関関数
二点相関関数の定義を述べる前に、前準備しておこう。
ある小さな領域ΔSに店舗が存在する確率がポアソン分布で記述できるとする。
平均店舗数密度をnとすれば、ΔSにおける店舗数の期待値はnΔSである。
ΔSに存在する店舗数をN(ΔS)書くとき、店舗数の確率分布は
P(N(ΔS)=k)=k!(nΔS)ke−nΔS
で与えられる。ΔSに店舗が1つしかないとき、
P(N(ΔS)=1)=nΔS⋅e−nΔS
となるので、ΔS≪1となるようにして、ΔSの1次までをとれば
P(N(ΔS)=1)=nΔS+O(ΔS2)
である。あるΔS1に1店舗、あるΔS2に1店舗ある場合ある場合、それらの同時確率は
ΔP=n2ΔS1ΔS2
である。もし店舗が存在する位置同士に相関があって、ポアソンよりも店舗が見つかりやすくなる(見つかりにくくなる)効果としてξ(r)を考えると、
ΔP=n2(1+ξ(r))ΔS1ΔS2
となり、このξ(r)を二点相関関数という。ξ(r)>0のとき、店舗同士はクラスターを形成しやすい傾向にあり、逆にξ(r)<0ならば店舗通しは離れやすい性質を持つ。ξ(r)=0ならばポアソン分布に従い店舗が配置される。
二点相関関数の推定量
二点相関関数の推定量は昔から調べられている。店舗間の距離rからr+Δrのビンの中に存在する店舗間距離のペアの数をDD(r)とし、ランダムサンプルから得られるデータ点に対して、同様にペアの数をカウントしたものをRR(r)とする。いま見ている相関とはランダムだった時に比べて、どのスケールでどれくらい集まりやすいか(離れやすいか)を表しているので、相関関数の推定量は単純には
ξ^(r)=RR(r)DD(r)−1
と表される。しかしながら、通常はポアソン分布の分散の最小値に近くなLandy-Szalay推定量
ξ^LS(r)=RR(r)DD(r)−2DR(r)+RR(r)
が使われる。
Landy-Szalay推定量についての計算
DD(r)は観測することで得た標本のデータ点のペアカウントであるので確率変数である。RR(r)はランダムサンプル同士のペアカウントで、DR(r)は実データとランダムサンプル同士のペアカウントである。よく使われる推定量は
1+ξ^1(r)1+ξ^2(r)=RR(r)DD(r)n(n−1)nr(nr−1),=DR(r)DD(r)n−12nr
となる。
観測されるデータ点の数がnで、ランダムサンプルの数がnrとするとき、DDのペアカウントの総数はn(n−1)/2であり、同様にRRのペアカウントの総数はnr(nr−1)/2である。
一方、DRのペアカウントはnnrである。
右辺のn,nrで書かれる因子は規格化因子である。
データがn点取得できて、かつランダムサンプルがnrの時において、ペアカウントがDD(r)となる条件付き確率をP(DD(r)∣n,nr)とすると、期待値からのゆらぎをα,β,γとして、それぞれ
DD(r)DR(r)RR(r)=E[DD(r)](1+α(r)),=E[DR(r)](1+β(r)),=E[RR(r)](1+γ(r))
と定義する。この定義より自動的にE[α]=E[β]=E[γ]=0である。またランダムサンプルの数は原理的には無限に増やすことができるので、任意の精度までγを小さくできる。
例えば、ξ^2(r)の期待値と分散を求める。
ξ^2(r)=E[DR]E[DD]n−12nr1+β1+α−1
であり、ここで微少量によらない部分の係数をA=E[DR]E[DD]n−12nrとする。(1+β)−1=1−β+β2+O(β3)であるので、ゆらぎの2次まで保つと
1+β1+α=(1+α)(1−β+β2+O(β3))=1+α−β−αβ+β2+O(δ3)
となる。ここでδ3はゆらぎの3次という意味であり、これにあわせてδ1=α−β,δ2=−αβ+β2とおくと、相関関数ξ^2(r)は
ξ^2(r)=(A−1)+Aδ1+δ2+O(δ3)
と書くことができる。これの期待値をとると
E[ξ^2(r)]=(A−1)+AE[δ1]+AE[δ2]+O(δ3)
であるが、1次のゆらぎの期待値は0なので、結局
1+E[ξ^2(r)]=A(1+E[δ2])+O(δ3)=E[DR]E[DD]n−12nr(1−E[αβ]+E[β2])+O(δ3)
を得る。
一方、分散を求めるためにξ^2(r)の2次のモーメントを計算すると、
(ξ^2(r))2=((A−1)+Aδ1+Aδ2+O(δ3))2=(A−1)2+2A(A−1)δ1+A2δ12+2A(A−1)δ2+O(δ3)
なので
E[(ξ^2(r))2]=(A−1)2+A2E[δ12]+2A(A−1)E[δ2]+O(δ3)
である。ようやく分散が計算できて
Var[ξ^2(r)]=E[(ξ^2(r))2]−(E[ξ^2(r)])2=(A−1)2+A2E[δ12]+2A(A−1)E[δ2]−((A−1)+AE[δ2])2+O(δ3)=(A−1)2+A2E[δ12]+2A(A−1)E[δ2]−(A−1)2−2A(A−1)E[δ2]+O(δ3)=A2E[δ12]+O(δ3)=(E[DR]E[DD]n−12nr)2(E[α2]+E[β2]−2E[αβ])+O(δ3)
である。
Landy-Szalay推定量についての計算2:
定義より、
αβ=E[DD]DD−E[DD],=E[DR]DR−E[DR],
であるから、2次のモーメントがDD,DR,RRのペアカウントのみで表現できて
E[α2]E[β2]E[αβ]=(E[DD])2E[DD2]−(E[DD])2=(E[DD])2Var[DD],=(E[RR])2E[RR2]−(E[RR])2=(E[RR])2Var[RR],=E[DD]⋅E[DR]E[DD⋅DR]−E[DD]⋅E[DR]=(E[DD])2Cov[DD,DR],
と表される。
参考文献
実は…
最近オーストラリアに一週間ほど滞在しました。
オーストラリアには二つの小売寡占企業がありまして、その名前を「Coles」「Woolworths」と言います。私もとある小売系のシステムに携わっているので、一応関係者の端くれとしてお店を観察したり、シェアハウスの人に聞き込みをしてみたのです。
それによれば、
- オーストラリアの商品の入れ代わり頻度は日本よりもずっと小さい
- オーストラリアの方がDC(配送センター)から店舗までの距離が大きい
らしいのです。私はこのような推測を実際調べたくなる性で、また調べている途中に気になるテーマが変わってしまう性でもあります。今回も上の二つを調べていたところ、日本とオーストラリアの店舗の分布が統計的に同質のものなのか、そうではないものなのかが気になってしまったのです。
こういうわけで気づけば宇宙論の論文を開いて計算を追っています。いつ計算が終わることやら…。