目次
概要
連続確率分布の1つである離散一様分布について解説します。
確率関数
確率変数 $X$ が次のような確率関数をもつとき、$X$ は区間 $[a, b]$ の離散一様分布 (discrete uniform distribution) に従うという。
$$ f_X(x) = \begin{cases} \frac{1}{n} & x = a, a + 1, \cdots, b \\ 0 & その他の場合 \end{cases} $$ただし、$n = b – a + 1$ とする。
累積確率関数
$x < a$ の場合、$f_X(x) = 0$ なので、
$$ P(X \le x) = 0 $$$a \le x \le b$ の場合、
$$ P(X \le x) = \sum_{k = a}^{\lfloor x \rfloor} \frac{1}{n} = \frac{\lfloor x \rfloor – a + 1}{n} $$$x > b$ の場合、$f_X(x) = 0$ なので、
$$ P(X \le x) = \sum_{k = a}^b \frac{1}{n} = \frac{b – a + 1}{n} = 1 $$よって、
$$ P(X \le x) = \begin{cases} 0 & x < a \\ \frac{\lfloor x \rfloor – a + 1}{n} & a \le x \le b \\ 1 & x > b \end{cases} $$確率関数である
$$ \sum_{k = a}^b \frac{1}{n} = \frac{b – a + 1}{n} = 1 $$期待値
$$ \begin{aligned} E[X] &= \sum_{x = a}^b x \frac{1}{n} \\ &= \frac{1}{n} \frac{1}{2}n(a + b) \quad \because 等差数列の和の公式 \\ &= \frac{a + b}{2} \\ \end{aligned} $$分散
$$ \begin{aligned} E[X^2] &= \sum_{x = a}^b x^2 \frac{1}{n} \\ &= \frac{1}{n} \frac{1}{6} (b – a + 1) (2a^2 + 2ab -a + 2b^2 + b) \quad \because 二乗和の公式 \\ &= \frac{1}{6} (2a^2 + 2ab – a + 2b^2 + b) \quad \because n = b – a + 1 \\ \end{aligned} $$$\sum_{x = a}^b x^2$ – Wolfram|Alpha
$$ \begin{aligned} Var[X] &= E[X^2] – (E[X])^2 \\ &= \frac{1}{6} (2a^2 + 2ab -a + 2b^2 + b) – \frac{(a + b)^2}{4} \\ &= \frac{a^2 + b^2 -2ab -2a + 2b}{12} \\ &= \frac{(b – a + 1)^2 – 1}{12} \\ &= \frac{n^2 – 1}{12} \end{aligned} $$標準偏差
$$ Std[X] = \sqrt{Var[X]} = \frac{\sqrt{n^2 – 1}}{2 \sqrt{2}} $$積率母関数
$$ \begin{aligned} m_X(t) &= E[e^{tX}] \\ &= \frac{1}{n} \sum_{x = a}^b e^{tx} dx \\ &= \frac{e^{(b + 1)t} – e^{at}}{n (e^t – 1)} \end{aligned} $$$\sum_{x = a}^b e^{tx}$ – Wolfram|Alpha
scipy.stats の離散一様分布
scipy.stats.randint で離散一様分布に従う確率変数を作成できます。
In [2]:
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy.stats import randint
sns.set(style="white")
X = randint(2, 9)
サンプリング
In [3]:
x = X.rvs(size=10)
print(x)
[1 4 2 5 8 3 2 2 5 2]
確率質量関数
In [4]:
x = np.arange(-1, 12)
y = X.pmf(x)
fig, ax = plt.subplots()
ax.stem(x, y, use_line_collection=True)
ax.grid()
plt.show()
累積分布関数
In [5]:
x = np.arange(-1, 12)
y = X.cdf(x)
fig, ax = plt.subplots()
ax.step(x, y, where="post")
ax.grid()
plt.show()
統計量
In [6]:
print("mean", X.mean())
print("var", X.var())
print("std", X.std())
mean 5.0 var 6.666666666666667 std 2.581988897471611
コメント