Landy-Szalay推定量①

2026-04-12

はじめに

Landy-Szalay推定量についての計算です。小売の店舗の分布を解析するのに使いたいので計算したメモの第一弾です。

二点相関関数

二点相関関数の定義を述べる前に、前準備しておこう。

ある小さな領域 $\Delta S$ に店舗が存在する確率がポアソン分布で記述できるとする。平均店舗数密度を $n$ とすれば、 $\Delta S$ における店舗数の期待値は $n\Delta S$ である。 $\Delta S$ に存在する店舗数を $N(\Delta S)$ 書くとき、店舗数の確率分布は

\begin{align} P(N(\Delta S) = k) = \frac{(n \Delta S)^k}{k!} e^{- n\Delta S} \end{align}

で与えられる。 $\Delta S$ に店舗が１つしかないとき、

\begin{align} P(N(\Delta S) = 1) = n \Delta S \cdot e^{- n \Delta S} \end{align}

となるので、 $\Delta S \ll 1$ となるようにして、 $\Delta S$ の１次までをとれば

\begin{align} P(N(\Delta S) = 1) = n \Delta S + \mathcal{O}(\Delta S^2) \end{align}

である。ある $\Delta S_1$ に１店舗、ある $\Delta S_2$ に1店舗ある場合ある場合、それらの同時確率は

\begin{align} \Delta P = n^2 \Delta S_1 \Delta S_2 \end{align}

である。もし店舗が存在する位置同士に相関があって、ポアソンよりも店舗が見つかりやすくなる（見つかりにくくなる）効果として $\xi(r)$ を考えると、

\begin{align} \Delta P = n^2 (1 + \xi(r)) \Delta S_1 \Delta S_2 \end{align}

となり、この $\xi(r)$ を二点相関関数という。 $\xi(r) > 0$ のとき、店舗同士はクラスターを形成しやすい傾向にあり、逆に $\xi(r) < 0$ ならば店舗通しは離れやすい性質を持つ。 $\xi(r) = 0$ ならばポアソン分布に従い店舗が配置される。

二点相関関数の推定量

二点相関関数の推定量は昔から調べられている。店舗間の距離 $r$ から $r + \Delta r$ のビンの中に存在する店舗間距離のペアの数を $DD(r)$ とし、ランダムサンプルから得られるデータ点に対して、同様にペアの数をカウントしたものを $RR(r)$ とする。いま見ている相関とはランダムだった時に比べて、どのスケールでどれくらい集まりやすいか（離れやすいか）を表しているので、相関関数の推定量は単純には

\begin{align} \hat{\xi}(r) = \frac{DD(r)}{RR(r)} - 1 \end{align}

と表される。しかしながら、通常はポアソン分布の分散の最小値に近くなLandy-Szalay推定量

\begin{align} \hat{\xi}_{\rm LS}(r) = \frac{DD(r) - 2DR(r) + RR(r)}{RR(r)} \end{align}

が使われる。

Landy-Szalay推定量についての計算

$DD(r)$ は観測することで得た標本のデータ点のペアカウントであるので確率変数である。 $RR(r)$ はランダムサンプル同士のペアカウントで、 $DR(r)$ は実データとランダムサンプル同士のペアカウントである。よく使われる推定量は

\begin{align} 1 + \hat{\xi}_1(r) &= \frac{DD(r)}{RR(r)} \frac{ n_r (n_r - 1) }{ n(n - 1) } \,, \\ 1+ \hat{\xi}_2(r) &= \frac{DD(r)}{DR(r)} \frac{ 2 n_r }{ n - 1 } \end{align}

となる。観測されるデータ点の数が $n$ で、ランダムサンプルの数が $n_r$ とするとき、 $DD$ のペアカウントの総数は $n(n - 1) / 2$ であり、同様に $RR$ のペアカウントの総数は $n_r (n_r - 1) / 2$ である。一方、 $DR$ のペアカウントは $n n_r$ である。右辺の $n, n_r$ で書かれる因子は規格化因子である。

データが $n$ 点取得できて、かつランダムサンプルが $n_r$ の時において、ペアカウントが $DD(r)$ となる条件付き確率を $P(DD(r)|n, n_r)$ とすると、期待値からのゆらぎを $\alpha, \beta, \gamma$ として、それぞれ

\begin{align} DD(r) &= \mathbb{E}[DD(r)] (1 + \alpha(r))\,, \\ DR(r) &= \mathbb{E}[DR(r)] (1 + \beta(r))\,, \\ RR(r) &= \mathbb{E}[RR(r)] (1 + \gamma(r)) \end{align}

と定義する。この定義より自動的に $\mathbb{E}[\alpha] = \mathbb{E}[\beta] = \mathbb{E}[\gamma] = 0$ である。またランダムサンプルの数は原理的には無限に増やすことができるので、任意の精度まで $\gamma$ を小さくできる。

例えば、 $\hat{ \xi }_2(r)$ の期待値と分散を求める。

\begin{align} \hat{\xi}_2(r) &= \frac{ \mathbb{E}[DD] }{ \mathbb{E}[DR] } \frac{ 2 n_r }{ n - 1 } \frac{ 1 + \alpha }{ 1 + \beta } - 1 \end{align}

であり、ここで微少量によらない部分の係数を $A = \frac{ \mathbb{E}[DD] }{ \mathbb{E}[DR] } \frac{ 2 n_r }{ n - 1 }$ とする。 $(1 + \beta)^{-1} = 1 - \beta + \beta^2 + \mathcal{O}(\beta^3)$ であるので、ゆらぎの２次まで保つと

\begin{align} \frac{ 1 + \alpha }{ 1 + \beta } &= (1 + \alpha) (1 - \beta + \beta^2 + \mathcal{O}(\beta^3)) \notag \\ &= 1 + \alpha - \beta - \alpha \beta + \beta^2 + \mathcal{O}(\delta_3) \end{align}

となる。ここで $\delta^3$ はゆらぎの３次という意味であり、これにあわせて $\delta_1 = \alpha - \beta, \delta_2 = - \alpha \beta + \beta^2$ とおくと、相関関数 $\hat{\xi}_2(r)$ は

\begin{align} \hat{\xi}_2(r) &= (A - 1) + A \delta_1 + \delta_2 + \mathcal{O}(\delta_3) \end{align}

と書くことができる。これの期待値をとると

\begin{align} \mathbb{E}[\hat{\xi}_2(r)] &= (A - 1) + A \mathbb{E}[\delta_1] + A \mathbb{E}[\delta_2] + \mathcal{O}(\delta_3) \end{align}

であるが、１次のゆらぎの期待値は $0$ なので、結局

\begin{align} 1 + \mathbb{E}[\hat{\xi}_2(r)] &= A(1 + \mathbb{E}[\delta_2]) + \mathcal{O}(\delta_3) \\ &= \frac{ \mathbb{E}[DD] }{ \mathbb{E}[DR] } \frac{ 2 n_r }{ n - 1 } (1 - \mathbb{E}[\alpha \beta] + \mathbb{E}[\beta^2]) + \mathcal{O}(\delta_3) \end{align}

を得る。

一方、分散を求めるために $\hat{\xi}_2(r)$ の２次のモーメントを計算すると、

\begin{align} (\hat{\xi}_2(r))^2 &= \big( (A - 1) + A \delta_1 + A \delta_2 + \mathcal{O}(\delta_3) \big)^2 \\ &= (A - 1)^2 + 2 A (A - 1) \delta_1 + A^2 \delta_1^2 + 2 A (A - 1) \delta_2 + \mathcal{O}(\delta_3) \end{align}

なので

\begin{align} \mathbb{E}[(\hat{\xi}_2(r))^2] &= (A - 1)^2 + A^2 \mathbb{E}[\delta_1^2] + 2 A (A - 1) \mathbb{E}[\delta_2] + \mathcal{O}(\delta_3) \end{align}

である。ようやく分散が計算できて

\begin{align} {\rm Var}[\hat{\xi}_2(r)] &= \mathbb{E}[(\hat{\xi}_2(r))^2] - (\mathbb{E}[\hat{\xi}_2(r)])^2 \notag \\ &= (A - 1)^2 + A^2 \mathbb{E}[\delta_1^2] + 2 A (A - 1) \mathbb{E}[\delta_2] - \big( (A - 1) + A \mathbb{E}[\delta_2] \big)^2 + \mathcal{O}(\delta_3) \notag \\ &= (A - 1)^2 + A^2 \mathbb{E}[\delta_1^2] + 2 A (A - 1) \mathbb{E}[\delta_2] \notag \\ &\qquad - (A - 1)^2 - 2A(A - 1)\mathbb{E}[\delta_2] + \mathcal{O}(\delta_3) \notag \\ &= A^2 \mathbb{E}[\delta_1^2] + \mathcal{O}(\delta_3) \notag \\ &= \left( \frac{ \mathbb{E}[DD] }{ \mathbb{E}[DR] } \frac{ 2 n_r }{ n - 1 } \right)^2 ( \mathbb{E}[\alpha^2] + \mathbb{E}[\beta^2] - 2 \mathbb{E}[\alpha\beta] ) + \mathcal{O}(\delta_3) \end{align}

である。

Landy-Szalay推定量についての計算２：

定義より、

\begin{align} \alpha &= \frac{DD - \mathbb{E}[DD]}{\mathbb{E}[DD]}\,, \\ \beta &= \frac{DR - \mathbb{E}[DR]}{\mathbb{E}[DR]}\,, \\ \end{align}

であるから、２次のモーメントが $DD, DR, RR$ のペアカウントのみで表現できて

\begin{align} \mathbb{E}[\alpha^2] &= \frac{ \mathbb{E}[DD^2] - (\mathbb{E}[DD])^2 }{ (\mathbb{E}[DD])^2 } = \frac{ {\rm Var}[DD] }{ (\mathbb{E}[DD])^2 }\,, \\ \mathbb{E}[\beta^2] &= \frac{ \mathbb{E}[RR^2] - (\mathbb{E}[RR])^2 }{ (\mathbb{E}[RR])^2 } = \frac{ {\rm Var}[RR] }{ (\mathbb{E}[RR])^2 }\,, \\ \mathbb{E}[\alpha \beta] &= \frac{ \mathbb{E}[DD \cdot DR] - \mathbb{E}[DD] \cdot \mathbb{E}[DR] }{ \mathbb{E}[DD] \cdot \mathbb{E}[DR] } = \frac{ {\rm Cov}[DD, DR] }{ (\mathbb{E}[DD])^2 }\,, \end{align}

と表される。

参考文献

S. D. Landy and A. S. Szalay, Bias and Variance of Angular Correlation Functions (1993)

実は…

最近オーストラリアに一週間ほど滞在しました。

オーストラリアには二つの小売寡占企業がありまして、その名前を「Coles」「Woolworths」と言います。私もとある小売系のシステムに携わっているので、一応関係者の端くれとしてお店を観察したり、シェアハウスの人に聞き込みをしてみたのです。

それによれば、

オーストラリアの商品の入れ代わり頻度は日本よりもずっと小さい
オーストラリアの方がDC（配送センター）から店舗までの距離が大きい

らしいのです。私はこのような推測を実際調べたくなる性で、また調べている途中に気になるテーマが変わってしまう性でもあります。今回も上の二つを調べていたところ、日本とオーストラリアの店舗の分布が統計的に同質のものなのか、そうではないものなのかが気になってしまったのです。

こういうわけで気づけば宇宙論の論文を開いて計算を追っています。いつ計算が終わることやら…。