[問題] L1與L2正規化的差別

看板DataScience作者 (bokxko1023)時間6年前 (2018/04/05 15:44), 編輯推噓8(8021)
留言29則, 6人參與, 6年前最新討論串1/3 (看更多)
在網路上看了不少文章,但還是無法理解為何L1會具有稀疏的特性?這兩者的具體差別到 底是什麼呢,能用gradient descent 在微分時的差別來解釋嗎? 另外想請問大家是怎麼選正規化的權重alpha的?雖說知道是用trial and error,但數字 範圍這麼廣,有沒有限縮範圍的方法呢? 感謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 110.50.162.168 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522914287.A.5DE.html

04/05 16:03, 6年前 , 1F
微分後的差別吧,L2會有w,L1只剩正負號
04/05 16:03, 1F

04/05 17:50, 6年前 , 2F
L2指數衰減,w不會歸0.L1則是定量減少,斜率不夠就會歸0
04/05 17:50, 2F

04/05 20:02, 6年前 , 3F
relularization的強度 l1 norm比較強
04/05 20:02, 3F

04/05 23:24, 6年前 , 4F
宏毅的ML有解釋 今天剛好聽到 數學式上解釋得很清楚
04/05 23:24, 4F

04/06 03:42, 6年前 , 5F
請問樓上是哪一部影片謝謝
04/06 03:42, 5F

04/06 15:57, 6年前 , 6F

04/06 15:59, 6年前 , 7F

04/06 16:00, 6年前 , 8F
樓上的圖有印象
04/06 16:00, 8F

04/06 16:00, 6年前 , 9F
圖畫得有點醜哈哈,不過 norm regularization term
04/06 16:00, 9F

04/06 16:01, 6年前 , 10F
可以對應到一個等價的 norm-constrained problem
04/06 16:01, 10F

04/06 16:03, 6年前 , 11F
大概是 min_x f(x) + ||x||_p^p, p = 1 or 2 可以轉成
04/06 16:03, 11F

04/06 16:04, 6年前 , 12F
min_x f(x), subject to ||x||_p <= C
04/06 16:04, 12F

04/06 16:04, 6年前 , 13F
樓上上的忘了加權重了QQ,不過樓上的C會根據權重決定
04/06 16:04, 13F

04/06 16:05, 6年前 , 14F
然後回到那兩張圖XD 灰色是f的等高線,x = [x1, x2]^T
04/06 16:05, 14F

04/06 16:06, 6年前 , 15F
然後灰色中間是minimum(這樣畫是假設f是棒棒convex)
04/06 16:06, 15F

04/06 16:09, 6年前 , 16F
可以看出/想像在多數convex f的情況下,當我們從最小點
04/06 16:09, 16F

04/06 16:10, 6年前 , 17F
一圈圈往外面走、直到和norm ball相切,就是找到答案了
04/06 16:10, 17F

04/06 16:11, 6年前 , 18F
然後L2 ball因為是圓圓胖胖的,所以在任何點都一樣容易
04/06 16:11, 18F

04/06 16:12, 6年前 , 19F
被圈圈碰到;但L1 ball是方方尖尖的,所以圈圈很容易
04/06 16:12, 19F

04/06 16:13, 6年前 , 20F
是切在頂點,就會造成稀疏的x啦~
04/06 16:13, 20F

04/06 16:14, 6年前 , 21F
不過這個太直觀了,而且實際上也不一定會真的轉換問題
04/06 16:14, 21F

04/06 16:15, 6年前 , 22F
實際上有些L1-reg.問題的解法是「刻意」弄出0的
04/06 16:15, 22F

04/06 16:17, 6年前 , 23F
比如說OWLQN會在一個維度想要變號的時候不讓他變號,
04/06 16:17, 23F

04/06 16:18, 6年前 , 24F
就讓他撞到0的牆,如果下一步gradient夠大才讓他變過去
04/06 16:18, 24F

04/06 16:22, 6年前 , 25F

04/06 16:23, 6年前 , 26F
這樣可以讓很多gradient很小的維度都被「困在」0,
04/06 16:23, 26F

04/06 16:24, 6年前 , 27F
最後的x就會一堆0 耶~(又亂畫圖XD)
04/06 16:24, 27F

04/06 20:57, 6年前 , 28F
那個圖片可以在軒田基石看 我之前說的在第16堂影片
04/06 20:57, 28F

04/06 20:58, 6年前 , 29F
Youtube上的就有了
04/06 20:58, 29F
文章代碼(AID): #1QnTFlNU (DataScience)
文章代碼(AID): #1QnTFlNU (DataScience)