はじめに
この記事は統計学入門1のを読んだことをまとめた振り返り記事です。
二項分布
ベルヌーイ試行
ある事象において成功の確率をp、失敗の確率をq=1−pとしたときに、毎回同じ条件でかつ独立に試行をn回行うことを考えます。この試行をベルヌーイ試行と言います。
二項分布
いま、成功がx回、失敗がn−x回であるとき、その確率分布は
f(x)=nCxpxqn−x
と与えられます。この確率分布を二項分布 (binomial distribution) と言いBi(n,p)で表します。この分布は確率の条件∑xf(x)=1を確かに満たしており、二項定理により
x=0∑nf(x)=x=0∑nnCxpxqn−x=(p+q)n=1
です。
二項分布の期待値と分散
期待値は定義より
E[X]=x=0∑nxf(x)=x=0∑nx⋅nCxpxqn−x
であり、ここで組み合わせの数が
x⋅nCx=x⋅x!(n−x)!n!=n⋅(x−1)!{(n−1)−(x−1)}!(n−1)!=n⋅n−1Cx−1
となることから、
E[X]=x=0∑nx⋅nCxpxqn−x(x=0は0に注意)=x=1∑nn⋅n−1Cx−1pxqn−x=npx=1∑nn−1Cx−1px−1qn−x=npy=0∑nn−1Cypyq(n−1)−y(y=x−1)=npy=0∑nBi(n−1,p)=np⋅1=np
となります。
分散もまた同様な式変形がで求められます。まず2次のモーメントは
E[X2]=x=0∑nx2⋅nCxpxqn−x=npx=1∑nx⋅n−1Cx−1pxqn−x=npx=1∑n[(x−1)⋅n−1Cx−1px−1qn−x+n−1Cx−1px−1qn−x]=npx=1∑n[(x−1)⋅n−1Cx−1px−1qn−x+n−1Cx−1px−1qn−x]=np[x=1∑n(x−1)⋅n−1Cx−1px−1qn−x+x=1∑nn−1Cx−1pxqn−x]
ここで括弧内の第1項は
x=1∑n(x−1)⋅n−1Cx−1px−1qn−x=(n−1)px=2∑nn−2Cx−2px−2qn−x
であり、結局総和は1であるので
E[X2]=n(n−1)p2+np
となります。よって、分散は
V[X]=E[X2]−(E[X])2=n(n−1)p2+np−(np)2=np(1−p)
と導けます。
分散はV[X]=np(1−p)で、pについて上に凸の2次関数であり、かつ0≤p≤1です。このpとしての関数は明らかにp=0,1で分散が0になるので、その間のp=1/2が2次関数の軸となります。p=1/2で分散が最大となり、V[X]=n/4となります。
結局確率が1/2のときが、成功・失敗のどちらの可能性もあり、正直どっちやねんという気持ちになります。一番当てにならないという直感が、分散が最大ということに表れています。