超幾何分布の二項分布への近似
超幾何分布は
f(x)=NCnMCx⋅N−MCn−x
で与えられます。このN,M,nはそれぞれ母集団の大きさ、母集団の当たりの数、試行回数を表します。また、xは当たりの数を表します。N/M=pとして、母集団とその当たりの数の比を固定したまま、Nを大きくすることを考えます。
準備 ポッホハマー記号
そのまま計算してもいいのですが、見通しをよくするためにポッホハマー記号を導入しておきます。ポッホハマー記号を次のように定義します:
(x)n=(x−n)!x!=(x−1)(x−2)⋯(x−n+1)=i=0∏n−1(x−i)
このように書いておくと、組み合わせの数は
NCn=n!(N−n)!N!=n!N(N−1)⋯(N−n+1)=n!(N)n
と表せます。また、同じ下付き添え字のポッホハマー記号で表されたもの同士の割り算は
(N)x(N)n=(N−x)n−x(wheren>x)
と表せます。
計算
超幾何分布を上記で説明したポッホハマー記号で表すと
f(x)=NCnMCx⋅N−MCn−x=n!(N)nx!(M)x⋅(n−x)!(N−M)n−x=nCx⋅(N)n(M)x(N−M)n−x
最後の行ではポッホハマー記号とそうでない部分に分離させただけです。そうでない部分は、ちょうど組み合わせの数で書けるので、残りの因子について計算すれば良くなりました。ここで商を思い出すと、
(N)n=(N)x⋅(N−x)n−x
なので、
(N)n(M)x(N−M)n−x=(N)x(N−x)n−x(M)x(N−M)n−x=(N)x(M)x⋅(N−x)n−x(N−M)n−x
となります。さて、残りの因子を計算しましょう。(N)x(M)xは
(N)x(M)x=i=0∏x−1N−iM−i=i=0∏x−11−Nip−NiN→∞⟶i=0∏x−1p=px
となります。また、(N−x)n−x(N−M)n−xは
(N−x)n−x(N−M)n−x=i=0∏n−x−1N−x−iN−M−i=i=0∏n−x−11−Nx+i1−NM−Ni=i=0∏n−x−11−Nx+i1−p−NiN→∞⟶i=0∏n−x−1(1−p)=(1−p)x
となります。したがって、M/N=pとすると、
f(x)N→∞⟶nCx⋅px(1−p)n−x
となります。これは二項分布の確率密度関数となります。
参考資料