[討論] L1L2正規化的物理意義。

看板DataScience作者 (pete)時間5年前 (2019/01/09 14:32), 5年前編輯推噓1(102)
留言3則, 1人參與, 5年前最新討論串1/3 (看更多)
L1L2是一種常見的正規化技巧 用來降低過度擬和效應的程度 我最近發現其背後有非常深刻的物理意義 首先 我們通常都會定義一個loss function 並加上L1 L2項 https://i.imgur.com/5OUdn1e.png
如果學過古典力學的同學 應該都知道有個Euler-Lagrange eq 而 λ1、λ2 分別對應Euler-Lagrange eq中的兩個不同Lagrangian Multipliers 後面的加總項則稱為L^1 、L^2 norm L^1 L^2 norm可以看成是兩個個別的邊界條件 所以前面那項loss function 可以看成是 δS 或是最小作用量 (least Action ) S就是Action 通常會是Lagrangian L 的一個路徑積分 S:=∫Ldt t:= time 因為很多我們感興趣的系統都是很複雜的 所以我們根本無從得知其Action或是Lagrangian的實際數學表示式, 也就無法對其做變分來了解其動力學了。 所以只能用類神經網路模型或是其他的機器學習模型在數值上做逼近 但我覺得整個(minimize loss Function+L1L2)精神 和Euler-Lagrange variation Eq 是等價的 L1 L2-norm 其實也可以推廣到 L^p norm (P=0~Inf) L^p norm 的 L其實就是 Lebesgue (一個數學家的人名) 某個L^P 就定義出一個metric space (可以用來量測數據點之間的距離) L^2 就是歐式空間距離 L^1 則叫做 Manhattan norm 所以各位可以把L1L2正規化看成是 引入兩個L^1 metric space和 L^2 metric space邊條件 加在原本loss function上的一種變分的數值方法 不過話說回來 怎麼知道數據點一定是在 L^1 space或是 L^2 space上呢? 它不能再其他的 L^p space上嗎?? 簡單說 為啥邊條件只假設設定在 L^1 space 或是 L^2 space上? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.251.134 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1547015573.A.AA0.html ※ 編輯: peter308 (59.120.251.134), 01/09/2019 16:01:51 ※ 編輯: peter308 (59.120.251.134), 01/09/2019 16:04:22

01/13 01:09, 5年前 , 1F
P>0就能做啊
01/13 01:09, 1F

01/13 01:09, 5年前 , 2F

01/13 01:09, 5年前 , 3F
s)#Generalizations_of_lasso
01/13 01:09, 3F
文章代碼(AID): #1SDPMLgW (DataScience)
文章代碼(AID): #1SDPMLgW (DataScience)