概要
統計量について解説し、pandas、numpy を使った計算方法について紹介します。
キーワード
- 標本 (sample)、ランダム標本 (random sample)
- 母集団 (population)
- 標本抽出 (sampling)
- 統計量 (statistic)
母集団
これから知りたいと思う集団全体を母集団 (population) という。
母集団から分析のために選んだ要素を標本 (sample)、標本を選び出すことを標本抽出 (sampling) という。
標本
確率変数 X1,X2,⋯,Xn が互いに独立で同一な確率分布に従う (independent and identically distributed / i.i.d.) とき、確率変数 X1,X2,⋯,Xn はその確率分布を持つ母集団 (population) からの大きさ n のランダム標本 (random sample of size n) または単に標本 (sample) という。
X を母集団確率変数としたとき、
X1,X2,⋯,Xn∼iidXと表す。
統計量
X1,X2,⋯,Xn を母集団確率変数 X からの大きさ n の標本としたとき、X1,X2,⋯,Xn の関数 T=r(X1,X2,⋯,Xn) を統計量 (statistic) という。
- 統計量もまた確率変数である。
- 標本 X1,X2,⋯,Xn の観測値を x1,x2,⋯,xn としたとき、t=r(x1,x2,⋯,xn) は統計量の値である。
- 統計量の分布を標本分布 (sampling distribution) という。
順序統計量
X1,X2,⋯,Xn を母集団確率変数 X からの大きさ n の標本としたとき、これを小さい順に並べたものを
X(1)≤X(2)≤⋯≤X(n)つまり、
X(1)X(2)X(n)=X1,X2,⋯,Xnの中で1番目に小さい値=min(X1,X2,⋯,Xn)=X1,X2,⋯,Xnの中で2番目に小さい値⋮=X1,X2,⋯,Xnの中でn番目に小さい値=max(X1,X2,⋯,Xn)を順序統計量 (order statistics) という。
統計量の一覧
T(X1,X2,⋯,Xn)=i=1∑nXi
T(X1,X2,⋯,Xn)=Xˉ=n1i=1∑nXi
- 標本平均絶対偏差 (sample mean absolute deviation / MAD)
T(X1,X2,⋯,Xn)=n1i=1∑n∣Xi–Xˉ∣
- (不偏)標本分散 (sample variance)
T(X1,X2,⋯,Xn)=s2=n–11i=1∑n(Xi–Xˉ)2
- (不偏)標本標準偏差 (sample standard deviation)
T(X1,X2,⋯,Xn)=s=n–11i=1∑n(Xi–Xˉ)2
- (不偏)標本標準誤差 (sample standard error of mean / SEM)
T(X1,X2,⋯,Xn)=ns
- r 次の標本積率 (r-th sample moment)
T(X1,X2,⋯,Xn)=Mr=n1i=1∑nXir
- Xˉ 周りの r 次の標本積率 (r-th sample moment about Xˉ)
T(X1,X2,⋯,Xn)=n1i=1∑n(Xi–Xˉ)r
T(X1,X2,⋯,Xn)=(n–1)(n–2)ni=1∑n(sXi–Xˉ)3
- (不偏)標本尖度 (sample kurtosis)
正規分散の尖度を0とする定義
T(X1,X2,⋯,Xn)=(n–1)(n–2)(n–3)n(n+1)i=1∑n(sXi–Xˉ)4–(n–2)(n–3)3(n–1)2
T(X1,X2,⋯,Xn)=最も頻繁におこる値
- (不偏)標本共分散 (sample covariance)
T(X1,X2,⋯,Xn)=sXY=n–11i=1∑n(Xi–Xˉ)(Yi–Yˉ)
- (不偏)標本相関係数 (sample correlation coefficient)
T(X1,X2,⋯,Xn)=rXY=sXsYsXY
T(X1,X2,⋯,Xn)=X~={X(k)2X(k)+X(k+1)n=2k–1n=2k
T(X1,X2,⋯,Xn)=R=X(n)–X(1)
T(X1,X2,⋯,Xn)=2X(1)+X(n)
pandas、numpy で計算する方法
pandas、numpy で計算する方法について紹介します。
コメント