統計学 – 負の二項分布

概要

離散確率分布の1つである負の二項分布について解説します。

確率関数

確率変数 XX が次のような確率関数をもつとき、XX はパラメータ r,pr, p の負の二項分布 (negative binominal distribution) に従うという。

fX(x)={(x+r1x)pr(1p)xx=0,1,0その他の場合 f_X(x) = \begin{cases} \binom{x + r – 1}{x} p^r (1 – p)^x & x = 0, 1, \cdots \\ 0 & その他の場合 \end{cases}

ただし、rr は正の整数、0<p<10 < p < 1

確率関数である

x=0(x+r1x)pr(1p)x=prx=0(rx)(p1)x(x+r1x)=(rx)(1)x=prprp1<1より、二項展開=1 \begin{aligned} &\sum_{x = 0}^\infty \binom{x + r – 1}{x} p^r (1 – p)^x \\ &= p^r \sum_{x = 0}^\infty \binom{-r}{x} (p – 1)^x \quad \because \binom{x + r – 1}{x} = \binom{-r}{x} (-1)^x \\ &= p^r p^{-r} \quad \because |p – 1| < 1 より、二項展開 \\ &= 1 \\ \end{aligned}

また、fX(x)0f_X(x) \ge 0 は明らか。

解釈

結果が成功か失敗かのいずれかである試行をベルヌーイ試行 (Bernoulli trial) という。 rr 回失敗するまでベルヌーイ試行を続けた場合の成功回数の分布はパラメータ r,pr, p の負の二項分布に従う。

累積確率関数

P(Xx)=k=0x(x+r1x)pr(1p)x P(X \le x) = \sum_{k = 0}^{\lfloor x \rfloor} \binom{x + r – 1}{x} p^r (1 – p)^x

aludaatAMS9-12-2018.pdf

期待値

E[X]=x=0x(x+r1x)pr(1p)x=x=0x(x+r1)!(r1)!x!pr(1p)x=x=1x(x+r1)!(r1)!x!pr(1p)x0項は0=x=1(x+r1)!(r1)!(x1)!pr(1p)x \begin{aligned} E[X] &= \sum_{x = 0}^\infty x \binom{x + r – 1}{x} p^r (1 – p)^x \\ &= \sum_{x = 0}^\infty x \frac{(x + r – 1)!}{(r – 1)!x!} p^r (1 – p)^x \\ &= \sum_{x = 1}^\infty x \frac{(x + r – 1)!}{(r – 1)!x!} p^r (1 – p)^x \quad \because 第0項は0 \\ &= \sum_{x = 1}^\infty \frac{(x + r – 1)!}{(r – 1)!(x – 1)!} p^r (1 – p)^x \end{aligned}

ここで、x=x1,r=r+1x’ = x – 1, r’ = r + 1 とおくと、

E[X]=x=0(x+r’–1)!(r’–2)!x!pr’–1(1p)x+1=1pp(r’–1)x=0(x+r’–1)!(r’–1)!x!pr(1p)x=1pp(r’–1)パラメータr,pの負の二項分布の総和は1=1pprr=r+1 \begin{aligned} E[X] &= \sum_{x’ = 0}^\infty \frac{(x’ + r’ – 1)!}{(r’ – 2)! x’!} p^{r’ – 1} (1 – p)^{x’ + 1} \\ &= \frac{1 – p}{p} (r’ – 1) \sum_{x’ = 0}^\infty \frac{(x’ + r’ – 1)!}{(r’ – 1)! x’!} p^{r’} (1 – p)^{x’} \\ &= \frac{1 – p}{p} (r’ – 1) \quad \because パラメータ r’, p の負の二項分布の総和は1 \\ &= \frac{1 – p}{p} r \quad \because r’ = r + 1 \end{aligned}

分散

E[X(X1)]=x=0x(x1)(x+r1x)pr(1p)x=x=0x(x1)(x+r1)!(r1)!x!pr(1p)x=x=1x(x1)(x+r1)!(r1)!x!pr(1p)x0項は0=x=1(x+r1)!(r1)!(x2)!pr(1p)x \begin{aligned} E[X(X – 1)] &= \sum_{x = 0}^\infty x(x – 1) \binom{x + r – 1}{x} p^r (1 – p)^x \\ &= \sum_{x = 0}^\infty x(x – 1) \frac{(x + r – 1)!}{(r – 1)!x!} p^r (1 – p)^x \\ &= \sum_{x = 1}^\infty x(x – 1) \frac{(x + r – 1)!}{(r – 1)!x!} p^r (1 – p)^x \quad \because 第0項は0 \\ &= \sum_{x = 1}^\infty \frac{(x + r – 1)!}{(r – 1)!(x – 2)!} p^r (1 – p)^x \end{aligned}

ここで、x=x2,r=r+2x’ = x – 2, r’ = r + 2 とおくと、

E[X(X1)]=x=0(x+r’–1)!(r’–3)!x!pr’–2(1p)x+2=(1p)2p2(r’–1)(r’–2)x=0(x+r’–1)!(r’–1)!x!pr(1p)x=(1p)2p2(r’–1)(r’–2)パラメータr,pの負の二項分布の総和は1=(1p)2p2r(r+1)r=r+2 \begin{aligned} E[X(X – 1)] &= \sum_{x’ = 0}^\infty \frac{(x’ + r’ – 1)!}{(r’ – 3)! x’!} p^{r’ – 2} (1 – p)^{x’ + 2} \\ &= \frac{(1 – p)^2}{p^2} (r’ – 1) (r’ – 2) \sum_{x’ = 0}^\infty \frac{(x’ + r’ – 1)!}{(r’ – 1)! x’!} p^{r’} (1 – p)^{x’} \\ &= \frac{(1 – p)^2}{p^2} (r’ – 1) (r’ – 2) \quad \because パラメータ r’, p の負の二項分布の総和は1 \\ &= \frac{(1 – p)^2}{p^2} r(r + 1) \quad \because r’ = r + 2 \end{aligned}

よって、分散は

Var[X]=E[X2][E(X)]2=E[X(X1)]+E[X][E(X)]2=(1p)2p2r(r+1)+1ppr(1ppr)2=1pp2 \begin{aligned} Var[X] &= E[X^2] – [E(X)]^2 \\ &= E[X(X – 1)] + E[X] – [E(X)]^2 \\ &= \frac{(1 – p)^2}{p^2} r(r + 1) + \frac{1 – p}{p} r – \left( \frac{1 – p}{p} r \right)^2 \\ &= \frac{1 – p}{p^2} \end{aligned}

積率母関数

mX(t)=E[etX]=x=0etx(x+r1x)pr(1p)x=x=0etx(rx)(1)xpr(1p)x(x+r1x)=(rx)(1)x=x=0(rx)pr[et(1p)]x \begin{aligned} m_X(t) &= E[e^{tX}] \\ &= \sum_{x = 0}^\infty e^{tx} \binom{x + r – 1}{x} p^r (1 – p)^x \\ &= \sum_{x = 0}^\infty e^{tx} \binom{-r}{x} (-1)^x p^r (1 – p)^x \quad \because \binom{x + r – 1}{x} = \binom{-r}{x} (-1)^x \\ &= \sum_{x = 0}^\infty \binom{-r}{x} p^r [-e^{t} (1 – p)]^x \end{aligned}

et(1p)<1|-e^{t} (1 – p)| < 1、つまり、0<et(1p)<10 < e^{t} (1 – p) < 1 のとき、二項展開より、

x=0(rx)pr[et(1p)]x=pr(1(1p)et)r=(p1(1p)et)r \begin{aligned} \sum_{x = 0}^\infty \binom{-r}{x} p^r [-e^{t} (1 – p)]^x &= p^r (1 – (1 – p) e^t)^{-r} &= \left( \frac{p}{1 – (1 – p) e^t} \right)^r \end{aligned}

再生性

X1,X2,,XnX_1, X_2, \cdots, X_n が独立でそれぞれパラメータ ri,pr_i, p の負の二項分布に従うとき、 S=X1+X2++XnS = X_1 + X_2 + \cdots + X_n はパラメータ r1+r2++rn,pr_1 + r_2 + \cdots + r_n, p の負の二項分布に従う。

証明:

XiX_i の積率母関数を mXi(t)m_{X_i}(t) とすると、

mS(t)=i=1nmXi(t)=i=1n(p1(1p)et)nri=(p1(1p)et)ni=1nri \begin{aligned} m_S(t) &= \prod_{i = 1}^n m_{X_i}(t) \\ &= \prod_{i = 1}^n \left( \frac{p}{1 – (1 – p) e^t} \right)^{n r_i} \\ &= \left( \frac{p}{1 – (1 – p) e^t} \right)^{n \sum_{i = 1}^n r_i} \\ \end{aligned}

これはパラメータ r1+r2++rn,pr_1 + r_2 + \cdots + r_n, p の負の二項分布の積率母関数と一致する。 積率母関数の一意性より、題意は示された。

scipy.stats の二項分布

scipy.stats.nbinom で二項分布に従う確率変数を作成できます。

In [1]:
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy.stats import nbinom

sns.set(style="white")

X = nbinom(n=5, p=0.5)
Python

サンプリング

In [2]:
x = X.rvs(size=10)
print(x)
Python
[ 3  8  9  6 11  4  7  2  5  2]

確率質量関数

In [3]:
x = np.arange(0, 20)
y = X.pmf(x)

fig, ax = plt.subplots()
ax.stem(x, y, use_line_collection=True)
ax.grid()

plt.show()
Python

累積分布関数

In [4]:
x = np.arange(0, 20)
y = X.cdf(x)

fig, ax = plt.subplots()
ax.step(x, y)
ax.grid()

plt.show()
Python

統計量

In [5]:
print("mean", X.mean())
print("var", X.var())
print("std", X.std())
Python
mean 5.0
var 10.0
std 3.1622776601683795

コメント

コメントする