概要
機械学習の PR 曲線、ROC 曲線、AUC について解説します。
PR 曲線
クラスが正例 (positive)、負例 (negative) である2クラス分類問題を考えます。 例えば、線形モデルで分類する場合、決定関数 (decision function) の値が閾値 以下かどうかで予測ラベルを決めるようになっています。
ここで、適合率 (precision) と再現率 (recall) の定義は次のようになっています。
閾値 を大きくすると、positive と予測する基準が厳しくなり、偽陽性 (FP) が減るので、適合率は上がります。一方、positive であるものも negative と間違える数が増えるので、偽陰性 (FN) が大きくなり、再現率が下がります。
In [1]:

この閾値を変えた場合に適合率、再現率がどうかわるかを計算します。
In [2]:

この2つのグラフを同じ閾値で対応付けて、x 軸に適合度 (precision)、y 軸に再現率 (recall) をとって描画したグラフをPR 曲線 (precision recall curve) といいます。
In [3]:

ROC 曲線
偽陽性率 (False Positive Rate, FPR) と真陽性率 (True Positive Rate, TPR) の定義は次のようになっています。
閾値を変えた場合に偽陽性率、真陽性率がどうかわるかを計算します。
In [4]:

この2つのグラフを同じ閾値で対応付けて、x 軸に偽陽性率、y 軸に真陽性率をとって描画したグラフを ROC 曲線 (receiver operationg characteristic) といいます。
In [5]:

AUI
ROC 曲線の内側の部分の面積を AUC (area under curve) といいます。

In [6]:
0.99334
コメント