統計学 – 正規分布

概要

連続確率分布の1つである正規分布について解説します。

確率密度関数

確率変数 XX が次のような確率密度関数をもつとき、XX はパラメータ μ,σ2\mu, \sigma^2 の正規分布 (normal distribution) またはガウス分布 (Gaussian distribution) に従うという。 確率変数 XX がパラメータ μ,σ2\mu, \sigma^2 の正規分布に従うとき、XN(μ,σ2)X \sim N(\mu, \sigma^2) と表す。

fX(x)=12πσ2exp((xμ)22σ2),xR f_X(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x – \mu)^2}{2 \sigma^2} \right), x \in \mathbb{R}

確率密度関数の要件を満たしている

12πσ2exp((xμ)22σ2)dx=12πσ2exp((tμ)22σ2)dt=12πσexp(u2)2σduu=tμ2σと置換積分=1πexp(u2)duガウス積分=1ππ=1 \begin{aligned} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x – \mu)^2}{2 \sigma^2} \right) dx &= \int_{-\infty}^\infty \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(t – \mu)^2}{2 \sigma^2} \right) dt \\ &= \frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^\infty \exp(-u^2) \sqrt{2} \sigma du \quad \because u = \frac{t – \mu}{\sqrt{2} \sigma} と置換積分 \\ &= \frac{1}{\sqrt{\pi}} \int_{-\infty}^\infty \exp(-u^2) du \quad \because ガウス積分 \\ &= \frac{1}{\sqrt{\pi}} \sqrt{\pi} \\ &= 1 \end{aligned}

累積確率関数

P(Xx)=x12πσ2exp((tμ)22σ2)dt=12πσxμ2σexp(u2)2σduu=tμ2σと置換積分=1πxμ2σexp(u2)du=1π(0exp(u2)du+0xμ2σexp(u2)du)=1π(π2+0xμ2σexp(u2)du)ガウス積分=12+122π0xμ2σexp(u2)du=12(1+erf(xμ2σ))erfの定義 \begin{aligned} P(X \le x) &= \int_{-\infty}^x \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(t – \mu)^2}{2 \sigma^2} \right) dt \\ &= \frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^\frac{x – \mu}{\sqrt{2} \sigma} \exp(-u^2) \sqrt{2} \sigma du \quad \because u = \frac{t – \mu}{\sqrt{2} \sigma} と置換積分 \\ &= \frac{1}{\sqrt{\pi}} \int_{-\infty}^\frac{x – \mu}{\sqrt{2} \sigma} \exp(-u^2) du \\ &= \frac{1}{\sqrt{\pi}} \left( \int_{-\infty}^0 \exp(-u^2) du + \int_{0}^\frac{x – \mu}{\sqrt{2} \sigma} \exp(-u^2) du \right) \\ &= \frac{1}{\sqrt{\pi}} \left( \frac{\sqrt{\pi}}{2} + \int_{0}^\frac{x – \mu}{\sqrt{2} \sigma} \exp(-u^2) du \right) \quad \because ガウス積分 \\ &= \frac{1}{2} + \frac{1}{2} \frac{2}{\sqrt{\pi}} \int_{0}^\frac{x – \mu}{\sqrt{2} \sigma} \exp(-u^2) du \\ &= \frac{1}{2} \left(1 + \text{erf}\left(\frac{x – \mu}{\sqrt{2} \sigma}\right) \right) \quad \because \text{erf} の定義 \\ \end{aligned}

期待値

E[X]=1σ2πxexp((xμ)22σ2)dx=2σ2πσ(2σt+μ)exp(t2)dxt=xμ2σで置換積分=1π(2σtexp(t2)dt+μexp(t2)dt)=1π(2σ0+μπ)ガウス積分=μ \begin{aligned} E[X] &= \frac{1}{ \sigma \sqrt{2 \pi}} \int_{-\infty}^\infty x \exp \left( -\frac{(x – \mu)^2}{2 \sigma^2} \right) dx \\ &= \frac{\sqrt{2} \sigma}{\sqrt{2 \pi} \sigma} \int_{-\infty}^\infty (\sqrt{2} \sigma t + \mu) \exp \left( -t^2 \right) dx \quad \because t = \dfrac {x – \mu} {\sqrt 2 \sigma} で置換積分 \\ &= \frac{1}{\sqrt{\pi}} \left( \sqrt{2} \sigma \int_{-\infty}^\infty t \exp(-t^2) dt + \mu \int_{-\infty}^\infty \exp(-t^2) dt \right) \\ &= \frac{1}{\sqrt{\pi}} \left( \sqrt{2} \sigma \cdot 0 + \mu \sqrt{\pi} \right) \quad \because ガウス積分 \\ &= \mu \end{aligned}

分散

E[X2]=1σ2πx2exp((xμ)22σ2)dx=2σ2πσ(2σt+μ)2exp(t2)dxt=xμ2σで置換積分=1π(2σ2t2exp(t2)dt+22σμtexp(t2)dt+μ2exp(t2)dt)=1π(2σ2π2+22σμ0+μ2π)=σ2+μ2 \begin{aligned} E[X^2] &= \frac{1}{ \sigma \sqrt{2 \pi}} \int_{-\infty}^\infty x^2 \exp \left( -\frac{(x – \mu)^2}{2 \sigma^2} \right) dx \\ &= \frac{\sqrt{2} \sigma}{\sqrt{2 \pi} \sigma} \int_{-\infty}^\infty (\sqrt{2} \sigma t + \mu)^2 \exp \left( -t^2 \right) dx \quad \because t = \dfrac {x – \mu} {\sqrt 2 \sigma} で置換積分 \\ &= \frac{1}{\sqrt{\pi}} \left( 2 \sigma^2 \int_{-\infty}^\infty t^2 \exp(-t^2) dt + 2 \sqrt{2} \sigma \mu \int_{-\infty}^\infty t \exp(-t^2) dt + \mu^2 \int_{-\infty}^\infty \exp(-t^2) dt \right) \\ &= \frac{1}{\sqrt{\pi}} \left( 2 \sigma^2 \frac{\sqrt{\pi}}{2} + 2 \sqrt{2} \sigma \mu \cdot 0 + \mu^2 \sqrt{\pi} \right) \\ &= \sigma^2 + \mu^2 \end{aligned}

よって、分散は

Var[X]=E[X2](E[X])2=σ2+μ2μ2=σ2 \begin{aligned} Var[X] &= E[X^2] – (E[X])^2 \\ &= \sigma^2 + \mu^2 – \mu^2 \\ &= \sigma^2 \end{aligned}

標準偏差

Std[X]=Var[X]=σ Std[X]= \sqrt{Var[X]} = \sigma

積率母関数

mX(t)=E[etX]=12πσetxexp((xμ)22σ2)dx=12πσexp(tx(xμ)22σ2)dx=exp(μt+σ2t22)12πσexp((x(μ+σ2t))22σ2)dx=exp(μt+σ2t22)fX(x)dxパラメータμ+σ2t,σ2の正規分布=exp(μt+σ2t22) \begin{aligned} m_X(t) &= E[e^{tX}] \\ &= \frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^\infty e^{tx} \exp \left( -\frac{(x – \mu)^2}{2 \sigma^2} \right) dx \\ &= \frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^\infty \exp \left( tx -\frac{(x – \mu)^2}{2 \sigma^2} \right) dx \\ &= \exp \left(\mu t + \frac{\sigma^2 t^2}{2} \right) \int_{-\infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} \exp \left( -\frac{(x – (\mu + \sigma^2 t))^2}{2 \sigma^2} \right) dx \\ &= \exp \left(\mu t + \frac{\sigma^2 t^2}{2} \right) \int_{-\infty}^\infty f_X(x) dx \quad \because パラメータ \mu + \sigma^2 t, \sigma^2 の正規分布 \\ &= \exp \left(\mu t + \frac{\sigma^2 t^2}{2} \right) \end{aligned}

正規分布のk次の中心積率

XN(μ,σ2)X \sim N(\mu, \sigma^2) のとき、

E[(Xμ)k]={(k1)!!σk=((k1)(k3)1)σkk=2,4,0k=1,3, E[(X – \mu)^k] = \begin{cases} (k – 1)!! \sigma^{k} = ((k – 1)(k – 3) \cdots 1) \sigma^{k} & k = 2, 4, \cdots \\ 0 & k = 1, 3, \cdots \\ \end{cases}

例:

E[(Xμ)2]=1E[(Xμ)4]=3 \begin{aligned} E[(X – \mu)^2] &= 1 \\ E[(X – \mu)^4] &= 3 \end{aligned}

証明:

積率母関数の定義より、

mXμ(t)=E[exp((Xμ)t)]=E[k=0((Xμ)t)kk!]マクローリン展開=k=0E[(Xμ)k]tkk!(1) \begin{aligned} m_{X – \mu}(t) &= E[\exp((X – \mu)t)] \\ &= E \left[ \sum_{k = 0}^\infty \frac{\left((X – \mu)t \right)^k}{k!} \right] \quad \because マクローリン展開 \\ &= \sum_{k = 0}^\infty E[(X – \mu)^k] \frac{t^k}{k!} \quad (1) \\ \end{aligned}

他方、XμN(0,σ2)X – \mu \sim N(0, \sigma^2) であるから、正規分布の積率母関数に当てはめると、

mXμ(t)=exp(σ2t22)=k=0(σ2t22)kk!マクローリン展開=k=0σ2kt2k2kk!(2) \begin{aligned} m_{X – \mu}(t) &= \exp \left(\frac{\sigma^2 t^2}{2} \right) \\ &= \sum_{k = 0}^\infty \frac{\left(\frac{\sigma^2 t^2}{2} \right)^k}{k!} \quad \because マクローリン展開 \\ &= \sum_{k = 0}^\infty \frac{\sigma^{2k} t^{2k}}{2^k k!} \quad (2) \end{aligned}

両者の式の係数を比較すると、

kk が奇数のとき、E[(Xμ)k]=0E[(X – \mu)^k] = 0
kk が偶数のとき、(1) における k=2nk = 2n としたときの t2nt^{2n} の係数 E[(Xμ)2n]2n!\frac{E[(X – \mu)^{2n}]}{2n!} と、(2) における t2nt^{2n} の係数 σ2n2nn!\frac{\sigma^{2n}}{2^n n!} が同じなので、

E[(Xμ)2n]2n!=σ2n2nn!E[(Xμ)2n]=2n!2nn!σ2n \begin{aligned} \frac{E[(X – \mu)^{2n}]}{2n!} &= \frac{\sigma^{2n}}{2^n n!} \\ E[(X – \mu)^{2n}] &= \frac{2n!}{2^n n!} \sigma^{2n} \\ \end{aligned}

2nn!=2n2(n1)(21)=2n(2n2)22^n n! = 2n \cdot 2 (n – 1) \cdots (2 \cdot 1) = 2n \cdot (2n – 2) \cdot 2 に注意すると、

E[(Xμ)2n]=2n!2nn!σ2n=2n(2n1)(2n2)212n(2n2)2σ2n=((2n1)(2n3)31)σ2n=(2n1)!!σ2n \begin{aligned} E[(X – \mu)^{2n}] &= \frac{2n!}{2^n n!} \sigma^{2n} \\ &= \frac{2n \cdot (2n – 1) \cdot (2n – 2) \cdots 2 \cdot 1}{2n \cdot (2n – 2) \cdot 2} \sigma^{2n} \\ &= ((2n – 1) \cdot (2n – 3) \cdots 3 \cdot 1) \sigma^{2n} \\ &= (2n – 1)!! \sigma^{2n} \\ \end{aligned}

scipy.stats の正規分布

scipy.stats.norm で正規分布に従う確率変数を作成できます。

In [1]:
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from scipy.stats import norm

sns.set(style="white")

X = norm()

サンプリング

In [2]:
x = X.rvs(size=5)
print(x)
[ 0.49353417  1.45683727 -2.78100417 -0.28630157 -0.79504348]

確率密度関数

In [3]:
x = np.linspace(-10, 10, 100)
y = X.pdf(x)

fig, ax = plt.subplots()
ax.plot(x, y)
ax.grid()

plt.show()

累積分布関数

In [4]:
x = np.linspace(-10, 10, 100)
y = X.cdf(x)

fig, ax = plt.subplots()
ax.plot(x, y)
ax.grid()

plt.show()

統計量

In [5]:
print("mean", X.mean())
print("var", X.var())
print("std", X.std())
mean 0.0
var 1.0
std 1.0

コメント

コメントする