[討論] L1L2正規化的物理意義。

看板DataScience作者peter308 (pete)時間6年前 (2019/01/09 14:32)推噓1(1推 0噓 2→)

留言3則, 1人參與討論串1/3 (看更多)

L1L2是一種常見的正規化技巧用來降低過度擬和效應的程度我最近發現其背後有非常深刻的物理意義首先我們通常都會定義一個loss function 並加上L1 L2項 https://i.imgur.com/5OUdn1e.png

如果學過古典力學的同學應該都知道有個Euler-Lagrange eq 而 λ1、λ2 分別對應Euler-Lagrange eq中的兩個不同Lagrangian Multipliers 後面的加總項則稱為L^1 、L^2 norm L^1 L^2 norm可以看成是兩個個別的邊界條件所以前面那項loss function 可以看成是 δS 或是最小作用量 (least Action ) S就是Action 通常會是Lagrangian L 的一個路徑積分 S:=∫Ldt t:= time 因為很多我們感興趣的系統都是很複雜的所以我們根本無從得知其Action或是Lagrangian的實際數學表示式，也就無法對其做變分來了解其動力學了。所以只能用類神經網路模型或是其他的機器學習模型在數值上做逼近但我覺得整個(minimize loss Function+L1L2)精神和Euler-Lagrange variation Eq 是等價的 L1 L2-norm 其實也可以推廣到 L^p norm (P=0~Inf) L^p norm 的 L其實就是 Lebesgue (一個數學家的人名) 某個L^P 就定義出一個metric space (可以用來量測數據點之間的距離) L^2 就是歐式空間距離 L^1 則叫做 Manhattan norm 所以各位可以把L1L2正規化看成是引入兩個L^1 metric space和 L^2 metric space邊條件加在原本loss function上的一種變分的數值方法不過話說回來怎麼知道數據點一定是在 L^1 space或是 L^2 space上呢? 它不能再其他的 L^p space上嗎?? 簡單說為啥邊條件只假設設定在 L^1 space 或是 L^2 space上? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.251.134 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1547015573.A.AA0.html ※ 編輯: peter308 (59.120.251.134), 01/09/2019 16:01:51 ※ 編輯: peter308 (59.120.251.134), 01/09/2019 16:04:22