概要
ベイズの識別規則について解説します。以下の記事の続きになります。
機械学習 – 決定理論ついて (ML 識別規則、MAP 識別規則) – pystyle
損失行列
(i,j) 成分を正解のクラスが ci の入力 x を cj と分類した場合の損失とした行列を損失行列 (loss matrix) といい、L で表します。
損失関数
入力 x をクラス ci と分類した場合の損失を損失関数 (loss function) またはコスト関数 (cost function) で定義します。
r(ci∣x)=j=1∑KLijp(cj∣x)
ベイズ識別規則 (Bayes’ decision rule)
損失関数 r(ci∣x) が最小となるクラスに割り当てる識別規則をベイズ識別規則 (Bayes’ decision rule) といいます。
gi(x)=−r(ci∣x),(i=1,2,⋯,K)
クラス ci の決定領域は
Ri={x∈Rd∣ci=jargminr(cj∣x)}
入力 x の識別クラス y^ は
y^=iargminr(ci∣x)=ci s.t. r(ci∣x)≤r(cj∣x),(i=j)
ベイズ識別規則の期待損失を
ε=E[iminr(ci∣x)]と定義すると、
ε=E[jminr(cj∣x)]=∫Rdjminr(cj∣x)p(x)dx∵期待値の定義=i=1∑K∫Rijminr(cj∣x)p(x)dx∵R1,R2,⋯,RKはRdの分割=i=1∑K∫Rir(ci∣x)p(x)dx∵x∈Ri→r(ci∣x)=jminr(cj∣x)=i=1∑Kj=1∑K∫RiLijp(cj∣x)p(x)dx∵r(ci∣x)の定義=i=1∑Kj=1∑K∫RiLijp(x∣cj)p(cj)dx∵ベイズの定理
最大事後確率識別識別とベイズの識別識別の関係
損失行列を Lii=0,Lij=1,(i=j) とすると、
L=01⋮110⋮1⋯1⋯1⋯⋮⋯0これを zero-one loss といいます。
このとき、ベイズの識別規則は最大事後確率識別識別と一致します。
y^=iargminr(ci∣x)=iargminj=1∑KLijp(cj∣x)=iargmini=j∑p(cj∣x)∵Lii=0,Lij=1=iargmin1–p(ci∣x)∵i=1∑Kp(ci∣x)=1=iargmaxp(ci∣x)
例: 2クラス分類
釣った魚の大きさが x∈R であったとき、その魚が鮭 (salmon)、スズキ (sea bass) のどちらであるかを識別する2クラス分類問題を考えます。(鮭、スズキ以外の魚が釣れることはないと仮定します)
以下の情報がわかっているものとします。
- 事前確率
- 釣った魚が鮭である確率は p(salmon)=32
- 釣った魚がスズキである確率は p(bass)=31
尤度
- 鮭の大きさは正規分布 N(5,1) に従う
p(x∣salmon)=2π1exp(−2(x–5)2)
- スズキの大きさは正規分布 N(10,4) に従う
p(x∣bass)=22π1exp(−8(x–10)2)
損失行列
鮭はスズキより高価でおいしいため、鮭をスズキと間違って分類した場合は損失が大きくなるものとして、次のように損失を定義します。
- 鮭をスズキと間違って識別した場合は2
- スズキを鮭と間違って識別した場合は1
- 正解した場合は0
このとき、損失行列は次のようになります。
L=(0130)損失は
r(salmon∣x)=L11p(salmon∣x)+L12p(bass∣x)=L11p(x∣salmon)p(salmon)+L12p(x∣bass)p(bass)=3×22π1exp(−8(x–10)2)×31r(bass∣x)=L21p(salmon∣x)+L22p(bass∣x)=L21p(x∣salmon)p(salmon)+L22p(x∣bass)p(bass)=1×2π1exp(−2(x–5)2)×32このとき、ベイズ識別規則に従うと、予測クラスは
y^={salmonbassif r(salmon∣x)≤r(bass∣x)if r(salmon∣x)>r(bass∣x)r(salmon∣x),r(bass∣x) を描画すると以下のようになります。
このとき、鮭とスズキの決定領域は以下になります。
RsalmonRbass={x∈Rd∣r(salmon∣x)≤r(bass∣x)}={x∈Rd∣r(salmon∣x)>r(bass∣x)}Sympy で r(salmon∣x)=r(bass∣x) を解いて、最尤識別規則の決定境界を計算します
-0.113152312119997 6.77981897878666
ベイズの識別規則
コメント