統計学 – 標本と統計量について

概要

統計量について解説し、pandas、numpy を使った計算方法について紹介します。

キーワード

標本 (sample)、ランダム標本 (random sample)
母集団 (population)
標本抽出 (sampling)
統計量 (statistic)

母集団

これから知りたいと思う集団全体を母集団 (population) という。母集団から分析のために選んだ要素を標本 (sample)、標本を選び出すことを標本抽出 (sampling) という。

標本

確率変数 $X_1, X_2, \cdots, X_n$ が互いに独立で同一な確率分布に従う (independent and identically distributed / i.i.d.) とき、確率変数 $X_1, X_2, \cdots, X_n$ はその確率分布を持つ母集団 (population) からの大きさ $n$ のランダム標本 (random sample of size n) または単に標本 (sample) という。

$X$ を母集団確率変数としたとき、

$$ X_1, X_2, \cdots, X_n \overset{iid}{\sim} X $$

と表す。

統計量

$X_1, X_2, \cdots, X_n$ を母集団確率変数 $X$ からの大きさ $n$ の標本としたとき、$X_1, X_2, \cdots, X_n$ の関数 $T = r(X_1, X_2, \cdots, X_n)$ を統計量 (statistic) という。

統計量もまた確率変数である。
標本 $X_1, X_2, \cdots, X_n$ の観測値を $x_1, x_2, \cdots, x_n$ としたとき、$t = r(x_1, x_2, \cdots, x_n)$ は統計量の値である。
統計量の分布を標本分布 (sampling distribution) という。

順序統計量

$X_1, X_2, \cdots, X_n$ を母集団確率変数 $X$ からの大きさ $n$ の標本としたとき、これを小さい順に並べたものを

$$ X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)} $$

つまり、

$$ \begin{aligned} X_{(1)} &= X_1, X_2, \cdots, X_n の中で1番目に小さい値 \\ &= \min(X_1, X_2, \cdots, X_n)\\ X_{(2)} &= X_1, X_2, \cdots, X_n の中で2番目に小さい値\\ &\vdots \\ X_{(n)} &= X_1, X_2, \cdots, X_n の中で n 番目に小さい値 \\ &= \max(X_1, X_2, \cdots, X_n) \\ \end{aligned} $$

を順序統計量 (order statistics) という。

統計量の一覧

標本和 (sample sum)

$$ T(X_1, X_2, \cdots, X_n) = \sum_{i = 1}^n X_i $$

標本平均 (sample mean)

$$ T(X_1, X_2, \cdots, X_n) = \bar{X} = \frac{1}{n} \sum_{i = 1}^n X_i $$

標本平均絶対偏差 (sample mean absolute deviation / MAD)

$$ T(X_1, X_2, \cdots, X_n) = \frac{1}{n} \sum_{i = 1}^n |X_i – \bar{X}| $$

(不偏)標本分散 (sample variance)

$$ T(X_1, X_2, \cdots, X_n) = s^2 = \frac{1}{n – 1} \sum_{i = 1}^n (X_i – \bar{X})^2 $$

(不偏)標本標準偏差 (sample standard deviation)

$$ T(X_1, X_2, \cdots, X_n) = s = \sqrt{\frac{1}{n – 1} \sum_{i = 1}^n (X_i – \bar{X})^2} $$

(不偏)標本標準誤差 (sample standard error of mean / SEM)

$$ T(X_1, X_2, \cdots, X_n) = \frac{s}{\sqrt{n}} $$

$r$ 次の標本積率 (r-th sample moment)

$$ T(X_1, X_2, \cdots, X_n) = M_r = \frac{1}{n} \sum_{i = 1}^n X_i^r $$

$\bar{X}$ 周りの $r$ 次の標本積率 (r-th sample moment about $\bar{X}$)

$$ T(X_1, X_2, \cdots, X_n) = \frac{1}{n} \sum_{i = 1}^n (X_i – \bar{X})^r $$

(不偏)標本歪度 (sample skew)

$$ T(X_1, X_2, \cdots, X_n) = \frac{n}{(n – 1)(n – 2)} \sum_{i = 1}^n \left(\frac{X_i – \bar{X}}{s}\right)^3 $$

(不偏)標本尖度 (sample kurtosis)

正規分散の尖度を0とする定義

$$ T(X_1, X_2, \cdots, X_n) = \frac{n(n + 1)}{(n – 1)(n – 2)(n – 3)} \sum_{i = 1}^n \left(\frac{X_i – \bar{X}}{s}\right)^4 – \frac{3(n – 1)^2}{(n – 2)(n – 3)} $$

標本モード (sample mode)

$$ T(X_1, X_2, \cdots, X_n) = 最も頻繁におこる値 $$

(不偏)標本共分散 (sample covariance)

$$ T(X_1, X_2, \cdots, X_n) = s_{XY} = \frac{1}{n – 1} \sum_{i = 1}^n (X_i – \bar{X})(Y_i – \bar{Y}) $$

(不偏)標本相関係数 (sample correlation coefficient)

$$ T(X_1, X_2, \cdots, X_n) = r_{XY} = \frac{s_{XY}}{\sqrt{s_X} \sqrt{s_Y}} $$

標準メディアン (sample median)

$$ T(X_1, X_2, \cdots, X_n) = \tilde{X} = \begin{cases} X_{(k)} & n = 2k – 1 \\ \frac{X_{(k)} + X_{(k + 1)}}{2} & n = 2k \\ \end{cases} $$

標本範囲 (sample range)

$$ T(X_1, X_2, \cdots, X_n) = R = X_{(n)} – X_{(1)} $$

標本中点 (sample midpoint)

$$ T(X_1, X_2, \cdots, X_n) = \frac{X_{(1)} + X_{(n)}}{2} $$

pandas、numpy で計算する方法

pandas、numpy で計算する方法について紹介します。

名前	名前 (英語)	表記	pandas.DataFrame	pandas.Series	numpy
標本和	sample sum		pandas.DataFrame.sum	pandas.Series.sum	numpy.sum
標本平均	sample mean	$\bar{X}$	pandas.DataFrame.mean	pandas.Series.mean	numpy.mean
標本平均絶対偏差	sample mean absolute deviation / MAD		pandas.DataFrame.mad	pandas.Series.mad
(不偏)標本分散	sample variance / VAR	$s^2$	pandas.DataFrame.var	pandas.Series.var	numpy.var(ddof=1)
(不偏)標本標準偏差	sample standard deviation / STD	$s$	pandas.DataFrame.std	pandas.Series.std	numpy.std(ddof=1)
(不偏)標本標準誤差	sample standard error of mean / SEM		pandas.DataFrame.sem	pandas.Series.sem
$r$ 次の標本積率	r-th sample moment	$M_r$
$\bar{X}$ 周りの $r$ 次の標本積率	r-th sample moment about \bar{X}
(不偏)標本歪度	sample skew		pandas.DataFrame.skew	pandas.Series.skew
(不偏)標本尖度	sample kurtosis		pandas.DataFrame.kurt	pandas.DataFrame.kurt
標本モード	sample mode		pandas.DataFrame.mode	pandas.Series.mode	scipy.stats.mode
(不偏)標本共分散	sample covariance / COV	$s_{XY}$	pandas.DataFrame.cov	pandas.Series.cov	numpy.cov
標本相関係数	sample correlation coefficient / CORR	$r_{XY}$	pandas.DataFrame.corr	pandas.Series.corr	numpy.corrcoef
標準メディアン	sample median	$\tilde{X}$	pandas.DataFrame.median	pandas.Series.median	numpy.median
標本範囲	sample range	$R$
標本中点	sample midpoint
最小		$X_{(1)}$	pandas.DataFrame.min	pandas.Series.min	numpy.min
最大		$X_{(n)}$	pandas.DataFrame.max	pandas.Series.max	numpy.max
n 番目に小さい値			pandas.DataFrame.nsmallest	pandas.Series.nsmallest
n 番目に大きい値			pandas.DataFrame.nlargest	pandas.Series.nlargest

In [1]:

import numpy as np
import pandas as pd
from scipy import stats as stats

np.random.seed(0)

x = np.random.randint(0, 10, 100)
s = pd.Series(x)
n = len(x)

## 標本和
print(x.sum())
print(s.sum())

## 標本平均
print(x.mean())
print(s.mean())

# 標本平均絶対偏差
print(np.abs(x - x.mean()).mean())
print(s.mad())

# (不偏)標本分散
print(x.var(ddof=1))
print(s.var())

# (不偏)標本標準偏差
print(x.std(ddof=1))
print(s.std())

# (不偏)標本標準誤差
print(x.std(ddof=1) / np.sqrt(n))
print(s.sem())

# r 次の標本積率
r = 4
print((x ** 4).mean())
print((s ** 4).mean())

# \bar{X} 周りの r 次の標本積率
r = 4
print(((x - x.mean()) ** 4).mean())
print(((s - s.mean()) ** 4).mean())

# 標本歪度
c1 = n / ((n - 1) * (n - 2))
print(c1 * (((x - x.mean()) / x.std(ddof=1)) ** 3).sum())
print(s.skew())

# 標本尖度
c1 = n * (n + 1) / ((n - 1) * (n - 2) * (n - 3))
c2 = 3 * (n - 1) ** 2 / ((n - 2) * (n - 3))
print(c1 * (((x - x.mean()) / x.std(ddof=1)) ** 4).sum() - c2)
print(s.kurt())

# 標本モード
print(stats.mode(x))
print(s.mode())

# 標本共分散
x2 = np.random.randint(0, 10, 100)
s2 = pd.Series(x2)

# 標本共分散行列
print(np.cov([x, x2], rowvar=1, ddof=1))
print([[s.cov(s), s.cov(s2)], [s2.cov(s), s2.cov(s2)]])

# 標本相関係数
print(np.corrcoef([x, x2], rowvar=1))  # 計算には不偏標本共分散を使用
print([[s.corr(s), s.corr(s2)], [s2.corr(s), s2.corr(s2)]])

# 標本メディアン
print(np.median(x))
print(s.median())

# 標本範囲
print(x.max() - x.min())
print(s.max() - s.min())

# 標本中点
print((x.max() + x.min()) / 2)
print((s.max() + s.min()) / 2)

統計学 – 標本と統計量について

概要

キーワード

母集団

標本

統計量

順序統計量

統計量の一覧

pandas、numpy で計算する方法

コメント

コメントするコメントをキャンセル

統計学 – 標本と統計量について

概要

キーワード

母集団

標本

統計量

順序統計量

統計量の一覧

pandas、numpy で計算する方法

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル