統計学 – 離散一様分布

目次

概要

連続確率分布の1つである離散一様分布について解説します。

確率関数

確率変数 $X$ が次のような確率関数をもつとき、$X$ は区間 $[a, b]$ の離散一様分布 (discrete uniform distribution) に従うという。

$$ f_X(x) = \begin{cases} \frac{1}{n} & x = a, a + 1, \cdots, b \\ 0 & その他の場合 \end{cases} $$

ただし、$n = b – a + 1$ とする。

累積確率関数

$x < a$ の場合、$f_X(x) = 0$ なので、

$$ P(X \le x) = 0 $$

$a \le x \le b$ の場合、

$$ P(X \le x) = \sum_{k = a}^{\lfloor x \rfloor} \frac{1}{n} = \frac{\lfloor x \rfloor – a + 1}{n} $$

$x > b$ の場合、$f_X(x) = 0$ なので、

$$ P(X \le x) = \sum_{k = a}^b \frac{1}{n} = \frac{b – a + 1}{n} = 1 $$

よって、

$$ P(X \le x) = \begin{cases} 0 & x < a \\ \frac{\lfloor x \rfloor – a + 1}{n} & a \le x \le b \\ 1 & x > b \end{cases} $$

確率関数である

$$ \sum_{k = a}^b \frac{1}{n} = \frac{b – a + 1}{n} = 1 $$

期待値

$$ \begin{aligned} E[X] &= \sum_{x = a}^b x \frac{1}{n} \\ &= \frac{1}{n} \frac{1}{2}n(a + b) \quad \because 等差数列の和の公式 \\ &= \frac{a + b}{2} \\ \end{aligned} $$

分散

$$ \begin{aligned} E[X^2] &= \sum_{x = a}^b x^2 \frac{1}{n} \\ &= \frac{1}{n} \frac{1}{6} (b – a + 1) (2a^2 + 2ab -a + 2b^2 + b) \quad \because 二乗和の公式 \\ &= \frac{1}{6} (2a^2 + 2ab – a + 2b^2 + b) \quad \because n = b – a + 1 \\ \end{aligned} $$

$\sum_{x = a}^b x^2$ – Wolfram|Alpha

$$ \begin{aligned} Var[X] &= E[X^2] – (E[X])^2 \\ &= \frac{1}{6} (2a^2 + 2ab -a + 2b^2 + b) – \frac{(a + b)^2}{4} \\ &= \frac{a^2 + b^2 -2ab -2a + 2b}{12} \\ &= \frac{(b – a + 1)^2 – 1}{12} \\ &= \frac{n^2 – 1}{12} \end{aligned} $$

標準偏差

$$ Std[X] = \sqrt{Var[X]} = \frac{\sqrt{n^2 – 1}}{2 \sqrt{2}} $$

積率母関数

$$ \begin{aligned} m_X(t) &= E[e^{tX}] \\ &= \frac{1}{n} \sum_{x = a}^b e^{tx} dx \\ &= \frac{e^{(b + 1)t} – e^{at}}{n (e^t – 1)} \end{aligned} $$

$\sum_{x = a}^b e^{tx}$ – Wolfram|Alpha

scipy.stats の離散一様分布

scipy.stats.randint で離散一様分布に従う確率変数を作成できます。

In [2]:
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy.stats import randint

sns.set(style="white")

X = randint(2, 9)

サンプリング

In [3]:
x = X.rvs(size=10)
print(x)
[1 4 2 5 8 3 2 2 5 2]

確率質量関数

In [4]:
x = np.arange(-1, 12)
y = X.pmf(x)

fig, ax = plt.subplots()
ax.stem(x, y, use_line_collection=True)
ax.grid()

plt.show()

累積分布関数

In [5]:
x = np.arange(-1, 12)
y = X.cdf(x)

fig, ax = plt.subplots()
ax.step(x, y, where="post")
ax.grid()

plt.show()

統計量

In [6]:
print("mean", X.mean())
print("var", X.var())
print("std", X.std())
mean 5.0
var 6.666666666666667
std 2.581988897471611

コメント

コメントする

目次