統計学 – 二項分布

概要

離散確率分布の1つである二項分布について解説します。

確率関数

確率変数 XX が次のような確率関数をもつとき、XX はパラメータ n,pn, p の二項分布 (binominal distribution) に従うという。 確率変数 XX がパラメータ n,pn, p の二項分布に従うことを XB(n,p)X \sim B(n, p) と表す。

fX(x)={(nx)px(1p)nxx=0,1,,n0その他の場合 f_X(x) = \begin{cases} \binom{n}{x} p^x (1 – p)^{n – x} & x = 0, 1, \cdots, n \\ 0 & その他の場合 \end{cases}

ただし、nn は正の整数、0p10 \le p \le 1

確率関数である

二項定理 (a+b)n=x=0n(nx)axbnx(a + b)^n = \sum_{x = 0}^n \binom{n}{x} a^x b^{n – x} より、

x=0n(nx)px(1p)nx=x=0n(p+(1p))n=1 \sum_{x = 0}^n \binom{n}{x} p^x (1 – p)^{n – x} = \sum_{x = 0}^n (p + (1 – p))^n = 1

また、fX(x)0f_X(x) \ge 0 は明らか。

解釈

結果が成功か失敗かのいずれかである試行をベルヌーイ試行 (Bernoulli trial) という。 ベルヌーイ試行を nn 回行ったときの成功回数を表す確率変数 XX をとると、XX はパラメータ n,pn, p の二項分布に従う。

累積確率関数

P(Xx)=k=0x(nk)pk(1p)nk P(X \le x) = \sum_{k = 0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1 – p)^{n – k}

期待値

E[X]=x=0nx(nx)px(1p)nx=x=0nxn!x!(nx)!px(1p)nx=x=1nn!(x1)!(nx)!px(1p)nxx=0の項目は0 \begin{aligned} E[X] &= \sum_{x = 0}^n x \binom{n}{x} p^x (1 – p)^{n – x} \\ &= \sum_{x = 0}^n x \frac{n!}{x!(n – x)!} p^x (1 – p)^{n – x} \\ &= \sum_{x = 1}^n \frac{n!}{(x – 1)!(n – x)!} p^x (1 – p)^{n – x} \quad \because x = 0 の項目は0 \\ \end{aligned}

ここで、x=x1,n=n1x’ = x – 1, n’ = n – 1 とおくと、

E[X]=x=0n(n+1)!x!(n’–x)!px+1(1p)n’–x=(n+1)px=0nn!x!(n’–x)!px(1p)n’–x=npx=0nn!x!(n’–x)!px(1p)n’–x=np(p+(1p))n二項定理=np \begin{aligned} E[X] &= \sum_{x’ = 0}^{n’} \frac{(n’ + 1)!}{x’! (n’ – x’)!} p^{x’ + 1} (1 – p)^{n’ – x’} \\ &= (n’ + 1)p \sum_{x’ = 0}^{n’} \frac{n’!}{x’!(n’ – x’)!} p^{x’} (1 – p)^{n’ – x’} \\ &= np \sum_{x’ = 0}^{n’} \frac{n’!}{x’!(n’ – x’)!} p^{x’} (1 – p)^{n’ – x’} \\ &= np (p + (1 – p))^{n’} \quad \because 二項定理 \\ &= np \end{aligned}

分散

E[X(X1)]=x=0nx(x1)(nx)px(1p)nx=x=0nx(x1)n!x!(nx)!px(1p)nx=x=2nn!(x2)!(nx)!px(1p)nxx=0,1の項目は0 \begin{aligned} E[X(X – 1)] &= \sum_{x = 0}^n x(x – 1) \binom{n}{x} p^x (1 – p)^{n – x} \\ &= \sum_{x = 0}^n x(x – 1) \frac{n!}{x!(n – x)!} p^x (1 – p)^{n – x} \\ &= \sum_{x = 2}^n \frac{n!}{(x – 2)!(n – x)!} p^x (1 – p)^{n – x} \quad \because x = 0, 1 の項目は0 \\ \end{aligned}

ここで、x=x2,n=n2x’ = x – 2, n’ = n – 2 とおくと、

E[X(X1)]=x=0n(n+2)!x!(n’–x)!px+2(1p)n’–x=(n+2)(n+1)p2x=0nn!x!(n’–x)!px(1p)n’–x=n(n1)p2x=0nn!x!(n’–x)!px(1p)n’–x=n(n1)p2パラメータn,pの二項分布の確率関数の総和は1 \begin{aligned} E[X(X – 1)] &= \sum_{x’ = 0}^{n’} \frac{(n’ + 2)!}{x’!(n’ – x’)!} p^{x’ + 2} (1 – p)^{n’ – x’}\\ &= (n’ + 2)(n’ + 1)p^2 \sum_{x’ = 0}^{n’} \frac{n’!}{x’!(n’ – x’)!} p^{x’} (1 – p)^{n’ – x’}\\ &= n(n – 1)p^2 \sum_{x’ = 0}^{n’} \frac{n’!}{x’!(n’ – x’)!} p^{x’} (1 – p)^{n’ – x’}\\ &= n(n – 1)p^2 \quad \because パラメータ n’, p の二項分布の確率関数の総和は1 \\ \end{aligned}

よって、分散は

Var[X]=E[X2][E(X)]2=E[X(X1)]+E[X][E(X)]2=n(n1)p2+np(np)2=np(1p) \begin{aligned} Var[X] &= E[X^2] – [E(X)]^2 \\ &= E[X(X – 1)] + E[X] – [E(X)]^2 \\ &= n(n – 1)p^2 + np – (np)^2 \\ &= np(1 – p) \end{aligned}

積率母関数

mX(t)=E[eXt]=x=0next(nx)px(1p)nx=x=0n(nx)(etp)x(1p)nx=(etp+1p)n二項定理 \begin{aligned} m_X(t) &= E[e^{Xt}] \\ &= \sum_{x = 0}^n e^{xt} \binom{n}{x} p^x (1 – p)^{n – x} \\ &= \sum_{x = 0}^n \binom{n}{x} (e^t p)^x (1 – p)^{n – x} \\ &= (e^t p + 1 – p)^n \quad \because 二項定理 \end{aligned}

ベルヌーイ分布との関係

X1,X2,,XnX_1, X_2, \cdots, X_n を独立で同一なパラメータ pp のベルヌーイ分布に従うとき、この確率変数の和 Y=X1+X2++XnY = X_1 + X_2 + \cdots + X_n はパラメータ n,pn, p の二項分布に従う。

mY(t)=i=1nmXi(t)X1,X2,,Xnは独立=i=1n(pet+1p)パラメータpのベルヌーイ分布の積率母関数=(pet+1p)n \begin{aligned} m_Y(t) &= \prod_{i = 1}^n m_{X_i}(t) \quad \because X_1, X_2, \cdots, X_n は独立 \\ &= \prod_{i = 1}^n (p e^t + 1 – p) \quad \because パラメータ p のベルヌーイ分布の積率母関数 \\ &= (p e^t + 1 – p)^n \end{aligned}

であるから積率母関数の一意性より、YY はパラメータ n,pn, p の二項分布に従う。

再生性

X1,X2,,XkX_1, X_2, \cdots, X_k を独立で、XiX_i はパラメータ ni,pn_i, p の二項分布に従うとき、この確率変数の和 Y=X1+X2++XkY = X_1 + X_2 + \cdots + X_k はパラメータ n1+n2++nk,pn_1 + n_2 + \cdots + n_k, p の二項分布に従う。

mY(t)=i=1kmXi(t)X1,X2,,Xnは独立で同一=i=1k(pet+1p)niパラメータni,pの二項分布の積率母関数=(pet+1p)n1+n2++nk \begin{aligned} m_Y(t) &= \prod_{i = 1}^k m_{X_i}(t) \quad \because X_1, X_2, \cdots, X_n は独立で同一 \\ &= \prod_{i = 1}^k (p e^t + 1 – p)^{n_i} \quad \because パラメータ n_i, p の二項分布の積率母関数 \\ &= (p e^t + 1 – p)^{n_1 + n_2 + \cdots + n_k} \end{aligned}

であるから積率母関数の一意性より、YY はパラメータ n1+n2++nk,pn_1 + n_2 + \cdots + n_k, p の二項分布に従う。

scipy.stats の二項分布

scipy.stats.binom で二項分布に従う確率変数を作成できます。

In [1]:
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy.stats import binom

sns.set(style="white")

X = binom(n=10, p=0.3)
Python

サンプリング

In [2]:
x = X.rvs(size=10)
print(x)
Python
[5 2 3 7 3 3 3 6 2 4]

確率質量関数

In [3]:
x = np.arange(0, 11)
y = X.pmf(x)

fig, ax = plt.subplots()
ax.stem(x, y, use_line_collection=True)
ax.grid()

plt.show()
Python

累積分布関数

In [4]:
x = np.arange(0, 11)
y = X.cdf(x)

fig, ax = plt.subplots()
ax.step(x, y)
ax.grid()

plt.show()
Python

統計量

In [5]:
print("mean", X.mean())
print("var", X.var())
print("std", X.std())
Python
mean 3.0
var 2.0999999999999996
std 1.4491376746189437

コメント

コメントする