はじめに
この記事は統計学入門1のを読んだことをまとめた振り返り記事です。
問題
負の二項分布を導出せよ。
解答
ベルヌーイ試行を考え、成功(S)と失敗(F)をそれぞれ確率pとq=1−pで表すとします。
成功がちょうどk回起こるときの分布を求めましょう。失敗の数はx回です。
したがって、条件として
- 最後の試行はSである
- k+x−1回の試行にはSがk−1回、Fがx回ある
と言えます。
確率変数XをFの数とすると、その分布は
f(x)=(k−1k+x−1)pkqx
が得られます。これが確率分布であるためには∑x=0∞f(x)=1を満たす必要があります。
ところでこの分布は二項分布ににています。二項分布は
f(x)=(xn)pxqn−x
であり、試行回数nを固定して、確率変数Xを成功Sの数として与えています。これが確率分布であることは二項定理から分かり、
x=0∑n(xn)pxqn−x=(p+q)n=1
です。
上記の二項定理はn,x∈Nを満たすものですが、負の二項分布はこれを拡張し、n∈Rまで許容するようにします。まず、組み合わせの数を次のように拡張します:
(xα)=x!α(α−1)⋯(α−x+1)whereα∈R
α=−kとすると、
(x−k)=x!(−k)(−k−1)⋯(−k−x+1)=(−1)xx!k(k+1)⋯(k+x−1)=(−1)x(xk+x−1)
です。よって(1+z)−kの展開は
(1−z)−k=x=0∑∞(x−k)(−z)x=x=0∑∞(−1)x(xk+x−1)(−1)xzx=x=0∑∞(xk+x−1)zx(1)
となります。負に拡張しているので下限がなく、そのため無限和になります。
※もし正のままなら
nCx=x!n(n−1)⋯(n−x+1)
で、n=x−1のときに分子が0になります。有限和になりますが、いまnが負になるので、(n−1)(n−2)⋯をいくら伸ばしても、分子に0が現れることはありません。
さて、上記の負まで拡張した(1)にz=q=1−pを代入すると、
(1−q)−k⇔p−k⇔1=x=0∑∞(xk+x−1)qx=x=0∑∞(xk+x−1)qx=x=0∑∞(xk+x−1)pkqx
となります。よって、確かに確率分布の性質を満たすことがわかりました。
ついでに期待値・分散も
ゴリ押しで計算する方法
期待値を求めます。定義より
E[X]=x=0∑∞x⋅(xk+x−1)pkqx
を計算します。二項分布とどうようにすればいいです。そこで組み合わせの恒等式を思い出します:
n⋅(mn)=m⋅(m−1n−1)
これをx⋅(xk+x−1)に適用すると
x⋅(xk+x−1)=(k+x−1)⋅(x−1k+x−2)
となります。さらに自明な式
(nm)=m−nm(nm−1)(2)
を適用すると
x⋅(xk+x−1)=(k+x−1)⋅(x−1k+x−2)=k⋅(x−1k+x−1)
となります((2)にm=k+x−1,n=x−1と対応させてください)。よって期待値は
E[X]=x=1∑∞x⋅(xk+x−1)pkqx=x=1∑∞k⋅(x−1k+x−1)pkqx=kpkqy=0∑∞(yk+y)qy=kpkq⋅(1−q)k+11=kpq
となります。
分散も同様に計算します。まず2次のモーメントは
E[X2]=x=1∑∞x2⋅(xk+x−1)pkqx
です。ここで係数について
x(x−1)(xk+x−1)=(x−2)!(k−1)!(k+x−1)!=k(k+1)(x−2)!(k+1)!(k+x−1)!=k(k+1)(x−2k+x−1)
という恒等式が成り立つので、2次のモーメントの式に対して無理やりこの形を作ります。つまり
E[X2]=x=1∑∞x(x−1)⋅(xk+x−1)pkqx+x=1∑∞x⋅(xk+x−1)pkqx
です。右辺第2項はE[X]なので右辺第1項を計算しましょう。
x=1∑∞x(x−1)⋅(xk+x−1)pkqx=x=1∑∞k(k+1)⋅(x−2k+x−1)pkqx=k(k+1)pkq2y=0∑∞(yk+y)qy=k(k+1)pkq2⋅(1−q)k+21=k(k+1)p2q2
と変形できます。よって、2次のモーメントがE[X2]=k(k+1)q2/p2+kq/pと求まりました。分散の定義から
V[X]=E[X2]−(E[X])2=k(k+1)p2q2+kpq−(pkq)2=k2p2q2+kp2q2+kpq−k2p2q2=kp2q2+qp=kp2q(q+p)=kp2q
となります(p+q=1を用いています)。
モーメント母関数を用いて計算する方法
モーメント母関数とは5章ででてきたように
MX(t)=x=0∑∞etxf(x)
で与えられます(明らかにMX(0)=1)。期待値・分散は
E[X]V[X]=MX′(t)∣t=0=MX′′(t)∣t=0−(MX′(t)∣t=0)2
となりますが、対数を使うと計算が楽になります。具体的に計算すると
MX′(t)=MX(t)dtdlogMX(t)
であることを使います。このとき分散は
V[X]=MX′′(t)∣t=0−(MX′(t)∣t=0)2=MX(t)∣t=02(MX(t))2MX′′(t)−(MX′(t))2=12⋅dtd(MX(t)MX′(t))=dt2d2(logMX(t))
のようにモーメント母関数に対数をとって2階微分し、t=0を置いただけになります。あとは機械的に計算します。まずモーメント母関数の対数の微分は
logMX(t)=k(logp−log(1−qet))
です。tで微分して
dtdlogMX(t)=k1−qetqet
なので、
E[X]=MX(0)⋅k1−qq=kpq
と期待値が求まりました。
分散も同様に計算します:
dt2d2logMX(t)=k(1−qet)2qet(1−qet)+q2e2t=k(1−qet)2qet
よって、
V[X]=k(1−qet)2qett=0=kp2q
と分散が求まりました。