概要
識別規則の1つである最尤識別規則について解説します。
最尤識別規則 (ML decision rule)
尤度 p(x∣ci) が最大となるクラスに割り当てる識別規則を最尤識別規則 (maximum likelihood decision rule/ML decision rule) といいます。
gi(x)=p(x∣ci),(i=1,2,⋯,K)
クラス ci の決定領域は
Ri={x∈Rd∣ci=jargmaxp(x∣cj)}
入力 x の識別クラス y^ は
y^=iargmaxp(x∣ci)=ci s.t. p(x∣ci)≥p(x∣cj),(i=j)
最尤識別規則の誤り率を
ε(x)=E[1–imaxp(x∣ci)]と定義すると、その期待値は
E[ε(x)]=E[1–jmaxp(x∣cj)]=1–E[jmaxp(x∣cj)]=1–∫Rdjmaxp(x∣cj)p(x)dx∵期待値の定義=1–i=1∑K∫Rijmaxp(x∣cj)p(x)dx∵R1,R2,⋯,RKはRdの分割=1–i=1∑K∫Rip(x∣ci)p(x)dx∵x∈Ri→p(x∣ci)=jmaxp(x∣cj)
例: 2クラス分類
釣った魚の大きさが x∈R であったとき、その魚が鮭 (salmon)、スズキ (sea bass) のどちらであるかを識別する2クラス分類問題を考えます。(鮭、スズキ以外の魚が釣れることはないと仮定します)
以下の情報がわかっているものとします。
- 鮭の大きさは正規分布 N(5,1) に従う
p(x∣salmon)=2π1exp(−2(x–5)2)
- スズキの大きさは正規分布 N(10,4) に従う
p(x∣bass)=22π1exp(−8(x–10)2)
このとき、最尤識別規則に従うと、予測クラスは
y^={salmonbassif p(x∣salmon)≥p(x∣bass)if p(x∣salmon)<p(x∣bass)p(x∣salmon),p(x∣bass) を描画すると以下のようになります。
このとき、鮭とスズキの決定領域は以下になります。
RsalmonRbass={x∈Rd∣p(x∣salmon)≥p(x∣bass)}={x∈Rd∣p(x∣salmon)<p(x∣bass)}Sympy で p(x∣salmon)=p(x∣bass) を解いて、最尤識別規則の決定境界を計算します
-0.266597720534824 6.93326438720149
p(x∣salmon)=p(x∣bass) の解は x=−0.26,6.93 であるとわかります。
コメント