統計学 – MAP 推定 (PRML 1.2.5)

概要

「パターン認識と機械学習上 (PRML)」の「1.2.5 曲線フィッティング再訪」の MAP 推定に記載されている内容のメモです。

MAP 推定

問題設定

$N$ 個の入力値 $\bm{x} = (x_1, x_2, \cdots, x_N)^T$ とそれに対応する目標値 $\bm{t} = (t_1, t_2, \cdots, t_N)^T$ が与えられたとき、次の $M$ 次元多項式での曲線フィッティングを考えます。

$$ y(x; \mathbf{w}) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M = \sum_{j = 0}^M w_j x^j $$

事前分布の導入

$M$ 次元多項式の係数 $\bm{w} \in \R^{M + 1}$ に関する事前分布を平均 $\bm{0}$、共分散 $\alpha^{-1} I$ の $M + 1$ 次元正規分布で設定します。

平均 $\bm{\mu}$、共分散 $\bm{\Sigma}$ の多次元正規分布の確率密度関数は

$$ f(\bm{x}) = \frac{1}{\sqrt{(2 \pi)^n |\Sigma|}} \exp \left(-\frac{1}{2} (\bm{x} – \bm{\mu})^T {\Sigma}^{-1} (\bm{x} – \bm{\mu}) \right) $$

であるから、$|\alpha^{-1} I| = \alpha^{-(M + 1)}|I| = \alpha^{-(M + 1)}$、$(\alpha^{-1} I)^{-1} = \alpha I$ に注意すると、

$$ p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0}, \alpha^{-1} I) =\left( \frac{\alpha}{2 \pi} \right)^{\frac{M + 1}{2}} \exp \left(- \frac{\alpha}{2} \bm{w}^T \bm{w} \right) $$

となります。ここで、$\alpha$ は分布の精度パラメータです。$\alpha$ のようにモデルパラメータの分布を制御するパラメータをハイパーパラメータ (hyper parameter) といいます。

事後分布を尤度と事前分布で表す

ベイズの定理より、

$$ \begin{aligned} p(\bm{w}|\bm{x}, \bm{t}, \alpha, \beta) &\propto p(\bm{x}, \bm{t}, \bm{w}, \alpha, \beta) \quad \because 乗法定理 \\ &\propto p(\bm{t}|\bm{x}, \bm{w}, \alpha, \beta) p(\bm{x}, \bm{w}, \alpha, \beta) \quad \because 乗法定理 \end{aligned} $$

ここで、$\bm{x}, \bm{w}, \beta$ が与えられたもとで、$\alpha$ と $\bm{t}$ は条件付き独立であるため、

$$ p(\bm{t}|\bm{x}, \bm{w}, \alpha, \beta) = p(\bm{t}|\bm{x}, \bm{w}, \beta) $$

また、$\alpha$ が与えられたもとで、$\bm{w}$ と $\bm{x}, \beta$ は条件付き独立であるため、

$$ \begin{aligned} p(\bm{x}, \bm{w}, \alpha, \beta) &= p(\bm{w}|\bm{x}, \alpha, \beta)p(\bm{x}, \alpha, \beta) \quad \because 乗法定理 \\ &= p(\bm{w}|\alpha)p(\bm{x}, \alpha, \beta) \end{aligned} $$

よって、

$$ p(\bm{w}|\bm{x}, \bm{t}, \alpha, \beta) \propto p(\bm{t}|\bm{x}, \bm{w}, \beta) p(\bm{w}|\alpha) $$

事後確率の最大化

事後確率の最大化する $\hat{\bm{w}}$ でパラメータを推定する方法を最大事後確率推定 (maximum a posterior/ MAP) といいます。

$$ \begin{aligned} \hat{\bm{w}} &= \argmax_{\bm{w}} \log p(\bm{w}|\bm{x}, \bm{t}, \alpha, \beta) \\ &= \argmin_{\bm{w}} -\log (p(\bm{t}|\bm{x}, \bm{w}, \beta) p(\bm{w}|\alpha)) \\ &= \argmin_{\bm{w}} -\log p(\bm{t}|\bm{x}, \bm{w}, \beta) -\log p(\bm{w}|\alpha) \\ &= \argmin_{\bm{w}} \frac{N}{2} \log (2 \pi) – \frac{N}{2} \log \beta + \frac{\beta}{2} \sum_{i = 1}^N (t_i – y(x_i; \bm{w}))^2 – \log p(\bm{w}|\alpha) \\ &= \argmin_{\bm{w}} \frac{\beta}{2} \sum_{i = 1}^N (t_i – y(x_i; \bm{w}))^2 – \log p(\bm{w}|\alpha) \end{aligned} $$

ここで

$$ \begin{aligned} \log p(\bm{w}|\alpha) &= \frac{M + 1}{2} \log \left( \frac{\alpha}{2 \pi} \right) – \frac{\alpha}{2} \bm{w}^T \bm{w} \end{aligned} $$

なので、

$$ \begin{aligned} \hat{\bm{w}} &= \argmax_{\bm{w}} \log p(\bm{w}|\bm{x}, \bm{t}, \alpha, \beta) \\ &= \argmin_{\bm{w}} \frac{\beta}{2} \sum_{i = 1}^N (t_i – y(x_i; \bm{w}))^2 – \log p(\bm{w}|\alpha) \\ &= \argmin_{\bm{w}} \frac{\beta}{2} \sum_{i = 1}^N (t_i – y(x_i; \bm{w}))^2 + \frac{\alpha}{2} \bm{w}^T \bm{w} \end{aligned} $$

$\lambda = \frac{\alpha}{\beta}$ をおくと、

$$ \begin{aligned} \hat{\bm{w}} &= \argmin_{\bm{w}} \frac{1}{2} \sum_{i = 1}^N (t_i – y(x_i; \bm{w}))^2 + \lambda \|\bm{w}\|^2 \end{aligned} $$

となり、事後確率の最大化は正則化項付きの二乗誤差の最小化と同値であることがわかります。