戻る

統計学入門 第6章 二項分布

はじめに

この記事は統計学入門1のを読んだことをまとめた振り返り記事です。

二項分布

ベルヌーイ試行

ある事象において成功の確率をpp、失敗の確率をq=1pq = 1 - pとしたときに、毎回同じ条件でかつ独立に試行をnn回行うことを考えます。この試行をベルヌーイ試行と言います。

二項分布

いま、成功がxx回、失敗がnxn-x回であるとき、その確率分布は

f(x)=nCxpxqnx\begin{align} f(x) = {}_{n} C_x p^x q^{n-x} \end{align}

と与えられます。この確率分布を二項分布 (binomial distribution) と言いBi(n,p){\rm Bi}(n, p)で表します。この分布は確率の条件xf(x)=1\sum_x f(x) = 1を確かに満たしており、二項定理により

x=0nf(x)=x=0nnCxpxqnx=(p+q)n=1\begin{align} \sum_{x=0}^{n} f(x) = \sum_{x=0}^{n} {}_{n} C_x p^x q^{n-x} = (p + q)^n = 1 \end{align}

です。

二項分布の期待値と分散

期待値は定義より

E[X]=x=0nxf(x)=x=0nxnCxpxqnx\begin{align*} E[X] &= \sum_{x=0}^{n} x f(x) \\[8pt] &= \sum_{x=0}^{n} x\cdot {}_{n} C_x p^x q^{n-x} \end{align*}

であり、ここで組み合わせの数が

xnCx=xn!x!(nx)!=n(n1)!(x1)!{(n1)(x1)}!=nn1Cx1\begin{align*} x\cdot {}_{n} C_x &= x \cdot \frac{n!}{x!(n-x)!} \\[8pt] &= n\cdot \frac{(n - 1)!}{(x-1)!\{(n - 1)-(x - 1)\}!} \\[8pt] &= n\cdot {}_{n-1} C_{x-1} \end{align*}

となることから、

E[X]=x=0nxnCxpxqnxx=0は0に注意)=x=1nnn1Cx1pxqnx=npx=1nn1Cx1px1qnx=npy=0nn1Cypyq(n1)y(y=x1)=npy=0nBi(n1,p)=np1=np\begin{align*} E[X] &= \sum_{x=0}^{n} x\cdot {}_{n} C_x p^x q^{n-x} \qquad \text{($x=0$は0に注意)} \\[8pt] &= \sum_{x=1}^{n} n\cdot {}_{n-1} C_{x-1} p^x q^{n-x} \\[8pt] &= np \sum_{x=1}^{n} {}_{n-1} C_{x-1} p^{x-1} q^{n-x} \\[8pt] &= np \sum_{y=0}^{n} {}_{n-1} C_{y} p^y q^{(n-1)-y} \qquad (y = x - 1)\\[8pt] &= np \sum_{y = 0}^n {\rm Bi}(n - 1, p) = np \cdot 1 = np \end{align*}

となります。

分散もまた同様な式変形がで求められます。まず2次のモーメントは

E[X2]=x=0nx2nCxpxqnx=npx=1nxn1Cx1pxqnx=npx=1n[(x1)n1Cx1px1qnx+n1Cx1px1qnx]=npx=1n[(x1)n1Cx1px1qnx+n1Cx1px1qnx]=np[x=1n(x1)n1Cx1px1qnx+x=1nn1Cx1pxqnx]\begin{align*} E[X^2] &= \sum_{x=0}^{n} x^2\cdot {}_{n} C_x p^x q^{n-x} \\[8pt] &= n p \sum_{x=1}^{n} x \cdot {}_{n-1} C_{x-1} p^x q^{n-x} \\[8pt] &= n p \sum_{x=1}^{n} \left [ (x - 1) \cdot {}_{n-1} C_{x-1} p^{x - 1} q^{n - x} + {}_{n-1} C_{x-1} p^{x-1} q^{n-x} \right ] \\[8pt] &= n p \sum_{x=1}^{n} \left [ (x - 1) \cdot {}_{n-1} C_{x-1} p^{x - 1} q^{n - x} + {}_{n-1} C_{x-1} p^{x-1} q^{n-x} \right ] \\[8pt] &= n p \left [ \sum_{x=1}^{n} (x - 1) \cdot {}_{n-1} C_{x-1} p^{x - 1} q^{n - x} + \sum_{x=1}^{n} {}_{n-1} C_{x-1} p^x q^{n-x} \right ] \\[8pt] \end{align*}

ここで括弧内の第1項は

x=1n(x1)n1Cx1px1qnx=(n1)px=2nn2Cx2px2qnx\begin{align*} \sum_{x=1}^{n} (x - 1) \cdot {}_{n-1} C_{x-1} p^{x - 1} q^{n - x} = (n - 1) p \sum_{x=2}^{n} {}_{n-2} C_{x-2} p^{x - 2} q^{n - x} \end{align*}

であり、結局総和は1であるので

E[X2]=n(n1)p2+np\begin{align*} E[X^2] &= n(n - 1)p^2 + np \end{align*}

となります。よって、分散は

V[X]=E[X2](E[X])2=n(n1)p2+np(np)2=np(1p)\begin{align*} V[X] &= E[X^2] - (E[X])^2 \\[8pt] &= n(n - 1)p^2 + np - (np)^2 \\[8pt] &= np (1 - p) \end{align*}

と導けます。

分散はV[X]=np(1p)V[X] = np (1 - p)で、ppについて上に凸の2次関数であり、かつ0p10 \leq p \leq 1です。このppとしての関数は明らかにp=0,1p = 0, 1で分散が0になるので、その間のp=1/2p = 1/2が2次関数の軸となります。p=1/2p = 1/2で分散が最大となり、V[X]=n/4V[X] = n/4となります。

結局確率が1/21/2のときが、成功・失敗のどちらの可能性もあり、正直どっちやねんという気持ちになります。一番当てにならないという直感が、分散が最大ということに表れています。

Footnotes

  1. 統計学入門 東京大学教養学部統計学教室編 東京大学出版会

戻る