[討論] L1L2正規化的物理意義。
L1L2是一種常見的正規化技巧
用來降低過度擬和效應的程度
我最近發現其背後有非常深刻的物理意義
首先 我們通常都會定義一個loss function 並加上L1 L2項
https://i.imgur.com/5OUdn1e.png
如果學過古典力學的同學 應該都知道有個Euler-Lagrange eq
而 λ1、λ2 分別對應Euler-Lagrange eq中的兩個不同Lagrangian Multipliers
後面的加總項則稱為L^1 、L^2 norm
L^1 L^2 norm可以看成是兩個個別的邊界條件
所以前面那項loss function 可以看成是 δS 或是最小作用量 (least Action )
S就是Action 通常會是Lagrangian L 的一個路徑積分 S:=∫Ldt t:= time
因為很多我們感興趣的系統都是很複雜的
所以我們根本無從得知其Action或是Lagrangian的實際數學表示式,
也就無法對其做變分來了解其動力學了。
所以只能用類神經網路模型或是其他的機器學習模型在數值上做逼近
但我覺得整個(minimize loss Function+L1L2)精神
和Euler-Lagrange variation Eq 是等價的
L1 L2-norm 其實也可以推廣到 L^p norm (P=0~Inf)
L^p norm 的 L其實就是 Lebesgue (一個數學家的人名)
某個L^P 就定義出一個metric space (可以用來量測數據點之間的距離)
L^2 就是歐式空間距離
L^1 則叫做 Manhattan norm
所以各位可以把L1L2正規化看成是
引入兩個L^1 metric space和 L^2 metric space邊條件
加在原本loss function上的一種變分的數值方法
不過話說回來
怎麼知道數據點一定是在 L^1 space或是 L^2 space上呢?
它不能再其他的 L^p space上嗎??
簡單說
為啥邊條件只假設設定在 L^1 space 或是 L^2 space上?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.251.134
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1547015573.A.AA0.html
※ 編輯: peter308 (59.120.251.134), 01/09/2019 16:01:51
※ 編輯: peter308 (59.120.251.134), 01/09/2019 16:04:22
推
01/13 01:09,
5年前
, 1F
01/13 01:09, 1F
→
01/13 01:09,
5年前
, 2F
01/13 01:09, 2F
→
01/13 01:09,
5年前
, 3F
01/13 01:09, 3F
討論串 (同標題文章)
以下文章回應了本文 (最舊先):
完整討論串 (本文為第 1 之 3 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章