Lasso回帰の理解

1 定義
2 L1正則化の意味
3
4 参考サイト

定義

Ridge回帰は単純な多重回帰の損失関数に対してL2正則化項を加え、多重共線性に対する正則化を図った。Lasso解析はこれに対してL1正則化項を加えて最小化する(正則化の意味についてはこちら)。

(1) $\begin{align*} L &= \frac{1}{2} \sum_{i=1}^n ( y_i - \hat{y}_i )^2 + \alpha (|w_1| + \cdots + |w_m|) \\ &= \frac{1}{2} \sum_i ( y_i - w_0 - w_1 x_{1i} - \cdots - w_m x_{mi} )^2 + \alpha (|w_1| + \cdots + |w_m|) \end{align*}$

L1正則化の意味

準備

L2正則化は各重み係数が全体として小さくなるように制約がかかったが、L1正則化では値がゼロとなる重み係数が発生する。このことを確認する。

係数wを求めるためには損失関数Lを最小化すればよいが、Ridge回帰とは異なりL1正則化項は通常の解析的な微分はできない。

(2) $\begin{align*} \frac{\partial L}{\partial w_k} &= - \sum_i x_{ki} ( y_i - w_0 - w_1 x_{1i} - \cdots - w_m x_{mi} ) + \alpha \frac{\partial |w_k|}{\partial w_k} \\ &= - \sum_i x_{ki}y_i + w_0 \sum_i x_{ki} + \sum_{j \ne k} w_j \sum_i x_{ji} x_{ki} + w_k \sum_i {x_{ki}}^2 + \alpha \frac{\partial |w_k|}{\partial w_k} \\ &= 0 \end{align*}$

ここで $\frac{\partial |w_k|}{\partial w_k}=|w_k|'$ と表し、左辺のw_k以外に関わる項をM_k、w_kの係数となっている2乗和をS_kkと表す。

(3) $\begin{equation*} M_k + w_k S_{kk} + \alpha |w_k|' = 0 \end{equation*}$

場合分け

ここで|w_k|’についてはw_kの符号によって以下の値をとる。

(4) $\begin{equation*} |w_k|' = \left\{ \begin{array}{rl} -1 & (w_k < 0) \\ 1 & (w_k > 0) \end{array} \end{equation*}$

これらを式(3)に適用する。まずw_k < 0に対しては

(5) $\begin{gather*} w_k < 0 \quad \rightarrow \quad M_k + w_k S_{kk} - \alpha = 0 \\ -M_k + \alpha < 0 \quad \rightarrow \quad w_k = \frac{-M_k + \alpha}{S_{kk}} \end{gather*}$

またw_k > 0に対しては、

(6) $\begin{gather*} w_k > 0 \quad \rightarrow \quad M_k + w_k S_{kk} + \alpha = 0 \\ -M_k - \alpha > 0 \quad \rightarrow \quad w_k = \frac{-M_k - \alpha}{S_{kk}} \end{gather*}$

以上をまとめると、

(7) $\begin{equation*} w_k = \left\{ \begin{array}{ll} \dfrac{-M_k - \alpha}{S_{kk}} & (M_k < -\alpha) \\ \\ \dfrac{-M_k + \alpha}{S_{kk}} & (M_k > \alpha) \\ \end{array} \right. \end{equation*}$

劣微分の導入

式(7)で−α ≤ M_k ≤ αについては得られていない。M_k → ±αについてそれぞれの側から極限を計算すると0となるのでその間も0でよさそうだが、その保証はない。

ここでこちらのサイトのおかげで”劣微分(subdifferential)”という考え方を知ることができた。|w_k|’についてw_k = 0では解析的に微分不可能だが、その両側から極限をとった微分係数の範囲の集合を微分係数とするという考え方のようだ。

(8) $\begin{equation*} \frac{d |x|}{dx} = \left\{ \begin{array}{cl} -1 & (x < 0) \\ \left[ -1, 1 \right] & (x = 0) \\ 1 & (x > 0) \end{array} \right. \end{equation*}$

そこで、w_k = 0に対してこの劣微分を適用してみる。

(9) $\begin{gather*} w_k = 0 \quad \rightarrow \quad M_k +w_k S_{kk} + \alpha \left[ -1, 1 \right] = \left[ M_k - \alpha , M_k + \alpha \right] = 0\\ M_k - \alpha \le 0 \le M_k + \alpha \quad \rightarrow \quad -\alpha \le M_k \le \alpha \quad \rightarrow \quad w_k = 0 \end{gather*}$

以上のことから、重みw_kについて以下のようになり、−α≤M_k≤αの範囲ではw_k = 0となることがわかる。

(10) $\begin{equation*} w_k = \left\{ \begin{array}{cl} \dfrac{-M_k - \alpha}{S_{kk}} & (M_k < -\alpha \quad)\\ \\ 0 & (-\alpha \le M_k \le \alpha) \\ \\ \dfrac{-M_k + \alpha}{S_{kk}} & (M_k > \alpha) \end{array} \right. \end{equation*}$

すなわちL1正則化の場合、ハイパーパラメータαは重み係数の大きさを制限すると同時に重み係数がゼロとなるような効果も持ち、αが大きいほど多くの重み係数がゼロとなりやすい。

参考サイト

本記事をまとめるにあたって、下記サイトが大変参考になったことに感謝したい。

Lassoを数式から実装まで(理論編)～Miidas Research

TauStation

Lasso回帰の理解

定義

L1正則化の意味

準備

場合分け

劣微分の導入

参考サイト

コメントを残すコメントをキャンセル

定義

L1正則化の意味

準備

場合分け

劣微分の導入

参考サイト

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル