概要
情報理論について解説します。
自己情報量
確率質量関数 pX(x) を持つ離散確率変数 X について、観測値 x が抽出されたときに得られる情報の量を情報量 (infomation content)、自己情報量 (self-infomation) または驚き (surprisal) といい、次で定義します。
IX(x):=−logpX(x)=logpX(x)1対数関数 log の底はなんでもよいですが、底の値によって、次の単位を用います。
- 2: ビット (bit) またはシャノン (shannon)
- e: ナット (nat)
- 10: デシット (decit) またはハートレー (hartley)
例: 偏りがないコイン投げ
表が出たとき 1、裏が出たとき 0 をとる確率変数を X とします。
偏りがないコインなので、
pX(x)=0.5,(x=0,1)このとき、表がでたとわかったときに得られる情報量は
IX(0)=−log2pX(0)=−log221=1bit裏がでたとわかったときに得られる情報量は
IX(1)=−log2pX(1)=−log221=1bit例: 偏りがないサイコロ投げ
サイコロの出た目をとる確率変数を X とします。
偏りがないサイコロなので、
pX(x)=0.5,(x=1,2,3,4,5,6)このとき、4 がでたとわかったときに得られる情報量は
IX(0)=−log2pX(4)=−log261≈2.585bit
起こりにくい事象ほど、それが起こったときに得られる情報量は大きいと解釈できます。また自己情報量は 0 より大きい値になります。
平均情報量、エントロピー
確率質量関数 pX(x) を持つ離散確率変数 X について、X のシャノンのエントロピー (Shannon entropy) または平均情報量 (average infomation) を次で定義します。
H(X):=E[IX(X)]=x∑pX(x)IX(x)=x∑−pX(x)logpX(x)
例: くじ引き
アタリが出たとき 1、ハズレが出たとき 0 をとる確率変数を X とします。
アタリの確率を p とすると、ハズレの確率は 1–p とします。
pX(x)={p1–px=1x=0このとき、X の平均情報量は、
H(X)=−pX(1)logpX(1)−pX(0)logpX(0)=−plogp−(1–p)log(1–p)p の値を変えたときに平均情報量 H(X) がどのように変化するかをグラフにします。
平均情報量は p=0 (アタリなし) と p=1 (ハズレなし) のときに最小、p=0.5 (アタリ、ハズレが同じ確率) のとき最大となることがわかります。
情報量の性質
加法性 (additivity)
独立な離散確率変数 X,Y がそれぞれ確率質量関数 pX(x),pY(y) を持つとき、結合確率密度関数は
pX,Y(x,y)=P(X=x,Y=y)=pX(x)pY(y)となります。このとき、(X,Y)=(x,y) となる自己情報量は
IX,Y(x,y)=−logpX,Y(x,y)=−logpX(x)pY(y)=−logpX(x)−logpY(y)=IX(x)+IY(y)情報量は減少関数である
確率質量関数 pX(x) を持つ離散確率変数 X について、自己情報量 IX(x) は確率 pX(x) に関する減少関数となっています。
平均情報量の最小値、最大値
シャノンの補助定理
X,Y をそれぞれ n 個の値をとり得る離散確率変数とし、各値をとる確率はそれぞれ pi,qi,(i=1,2,⋯,n) とします。
このとき、次が成り立ちます。
−i=1∑npilogapi≤−i=1∑npilogaqi証明)
−i=1∑npilogaqi+i=1∑npilogapi=−i=1∑npi(logaqi–logapi)=−i=1∑npilogapiqi=i=1∑nlogapi(−logpiqi)∵底の変換公式 (a→e)ここで、不等式 logx≤x–1⇔1–x≤−logx を用いると、
i=1∑nlogapi(−logpiqi)≥i=1∑nlogapi(1–piqi)=loga1i=1∑n(pi–qi)=loga1(i=1∑npi–i=1∑nqi)=0∵i=1∑npi=1,i=1∑nqi=1よって、
−i=1∑npilogpi≤−i=1∑npilogqi下限
X を確率質量関数 pX(x) を持つ離散確率変数とします。
確率関数なので pX(x)≥0,−logpX(x)≥0 より、
H(X)=x∑−pX(x)logpX(x)≥0等号は pX(x) がある値 a で 1、それ以外で 0 をとる確率質量関数であるとします。
pX(x)={10X=aotherwiseつまり、X=a となる確率が 1 の場合に平均情報量は最小値 0 をとります。
上限
X を n 個の値をとり得る離散確率変数とし、各値をとる確率は pi,(i=1,2,⋯,n) とします。
Y を n 個の値をとり得る離散確率変数とし、各値をとる確率は qi=n1,(i=1,2,⋯,n) とします (離散一様分布)。
このとき、
H(X)=−i=1∑npilogpi≤−i=1∑npilogqi=−i=1∑npilogN1=i=1∑npilogN=logN∵i=1∑npi=1
参考文献
コメント