戻る

統計学入門 第6章 超幾何分布 二項分布への近似

超幾何分布の二項分布への近似

超幾何分布は

f(x)=MCxNMCnxNCn\begin{align} f(x) &= \frac{ {}_M C_x \cdot {}_{N - M} C_{n - x} }{ {}_N C_n } \end{align}

で与えられます。このN,M,nN, M, nはそれぞれ母集団の大きさ、母集団の当たりの数、試行回数を表します。また、xxは当たりの数を表します。N/M=pN/M = pとして、母集団とその当たりの数の比を固定したまま、NNを大きくすることを考えます。

準備 ポッホハマー記号

そのまま計算してもいいのですが、見通しをよくするためにポッホハマー記号を導入しておきます。ポッホハマー記号を次のように定義します:

(x)n=x!(xn)!=(x1)(x2)(xn+1)=i=0n1(xi)\begin{align*} (x)_n &= \frac{x!}{(x-n)!} \\[8pt] &= (x - 1)(x - 2)\cdots(x - n + 1) \\[8pt] &= \prod_{i=0}^{n-1} (x-i) \end{align*}

このように書いておくと、組み合わせの数は

NCn=N!n!(Nn)!=N(N1)(Nn+1)n!=(N)nn!\begin{align*} {}_N C_n &= \frac{N!}{n!(N-n)!} \\[8pt] &= \frac{N(N-1)\cdots(N-n+1)}{n!} \\[8pt] &= \frac{(N)_n}{n!} \end{align*}

と表せます。また、同じ下付き添え字のポッホハマー記号で表されたもの同士の割り算は

(N)n(N)x=(Nx)nx(wheren>x)\begin{align*} \frac{(N)_n}{(N)_x} &= (N - x)_{n - x} \qquad ({\rm where} \quad n > x) \end{align*}

と表せます。

計算

超幾何分布を上記で説明したポッホハマー記号で表すと

f(x)=MCxNMCnxNCn=(M)xx!(NM)nx(nx)!(N)nn!=nCx(M)x(NM)nx(N)n\begin{align*} f(x) &= \frac{ {}_M C_x \cdot {}_{N - M} C_{n - x} }{ {}_N C_n } \\[8pt] &= \frac{ \displaystyle{\frac{(M)_x}{x!}} \cdot \displaystyle{\frac{(N-M)_{n-x}}{(n-x)!}} }{ \displaystyle{\frac{(N)_n}{n!}} } \\[8pt] &= {}_n C_x \cdot \frac{ (M)_x (N-M)_{n-x} }{ (N)_n } \end{align*}

最後の行ではポッホハマー記号とそうでない部分に分離させただけです。そうでない部分は、ちょうど組み合わせの数で書けるので、残りの因子について計算すれば良くなりました。ここで商を思い出すと、

(N)n=(N)x(Nx)nx (N)_n = (N)_x \cdot (N-x)_{n-x}

なので、

(M)x(NM)nx(N)n=(M)x(NM)nx(N)x(Nx)nx=(M)x(N)x(NM)nx(Nx)nx\begin{align*} \frac{ (M)_x (N-M)_{n-x} }{ (N)_n } &= \frac{ (M)_x (N-M)_{n-x} }{ (N)_x (N-x)_{n-x} } \\[8pt] &= \frac{ (M)_x }{ (N)_x } \cdot \frac{ (N-M)_{n-x} }{ (N - x)_{n-x} } \end{align*}

となります。さて、残りの因子を計算しましょう。(M)x(N)x\frac{ (M)_x }{ (N)_x }

(M)x(N)x=i=0x1MiNi=i=0x1piN1iNNi=0x1p=px\begin{align} \frac{ (M)_x }{ (N)_x } &= \prod_{i = 0}^{x - 1} \frac{M - i}{N - i} \notag \\[8pt] &= \prod_{i = 0}^{x - 1} \frac{ \displaystyle{p} - \frac{i}{N} }{ 1 - \displaystyle{\frac{i}{N}} } \notag \\[8pt] &\underset{N \to \infty}{\longrightarrow} \prod_{i = 0}^{x - 1} p = p^x \end{align}

となります。また、(NM)nx(Nx)nx\frac{ (N-M)_{n-x} }{ (N-x)_{n-x} }

(NM)nx(Nx)nx=i=0nx1NMiNxi=i=0nx11MNiN1x+iN=i=0nx11piN1x+iNNi=0nx1(1p)=(1p)x\begin{align} \frac{ (N - M)_{n - x} }{ (N - x)_{n - x} } &= \prod_{i=0}^{n-x-1} \frac{N - M - i}{N - x - i} \notag \\[8pt] &= \prod_{i=0}^{n-x-1} \frac{ 1 - \displaystyle{\frac{M}{N}} - \displaystyle{\frac{i}{N}} }{ 1 - \displaystyle{\frac{x + i}{N}} } \notag \\[8pt] &= \prod_{i=0}^{n-x-1} \frac{ 1 - p - \displaystyle{\frac{i}{N}} }{ 1 - \displaystyle{\frac{x + i}{N}} } \notag \\[8pt] &\underset{N \to \infty}{\longrightarrow} \prod_{i=0}^{n-x-1} (1 - p) = (1 - p)^x \end{align}

となります。したがって、M/N=pM/N = pとすると、

f(x)NnCxpx(1p)nx f(x) \underset{N \to \infty}{\longrightarrow} {}_n C_x \cdot p^x (1-p)^{n-x}

となります。これは二項分布の確率密度関数となります。

参考資料

戻る