Re: [徵文] Self-Normalizing Neural Networks

看板DataScience作者 (MXNet)時間6年前 (2018/07/09 16:53), 編輯推噓3(302)
留言5則, 4人參與, 6年前最新討論串3/4 (看更多)
※ 引述《PyTorch (PY火炬)》之銘言: : 感謝MXNet大的詳細解說 : 想請教MXNet : 我一直以來有個疑惑未明 : 就是selu是make Feed-forward great again : 但是如果加在convolution layer也有self normalize的效果嗎? : 以這篇post的作者使用DCGAN的經驗來看 : https://ajolicoeur.wordpress.com/cats/ : “All my initial attempts at generating cats in 128 x 128 with DCGAN failed. : However, simply by replacing the batch normalizations and ReLUs with SELUs, : I was able to get slow (6+ hours) but steady convergence with the same learning : rates as before. : SELUs are self-normalizing and thus remove the need for batch normalization.” : 看似是selu也能用在convolution layer且self normalize : 不知道數學上也能支持這件事嗎? : selu paper裡的數學推導應該是在Feed-forward的前提? 簡答:我看完後,認為是 support 的。 長的回答: 關於數學上假設的部分, 在論文中的第四頁的這段 "Deriving the Mean and Variance Mapping Function g" 裡面有提到,我們關心的是 z 的 distribution 的假設, 即 兩個 layer 之間,後面的那個 layer 的 input 為 z = Wx 的 distribution。 那麼要考慮 distribution 的時候,我們根據中央極限定理, 夠多 各式各樣的 z 形成的 distribution 是 normal dist。 而且是以 E(z) 為中心,var 為 Var(z) 的 一個 normal dist。 那麼我們現在就來想一下 E(z) E(z) = μ ω 這裡的 ω 是 weight matrix 的 mean, CNN 的 case 是能夠被計算的,沒問題。 那麼在單一一個 layer 中的參數量夠大的就會越符合 normal dist。 越寬的網路越符合這個假設, 文中是提到的是一個 layer 上百個 node 以上是很常見的, 所以就當作這個假設成立。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.73.135 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1531126386.A.9BB.html

07/10 00:10, 6年前 , 1F
感謝詳細的解說
07/10 00:10, 1F

07/10 08:13, 6年前 , 2F
後來翻看作者給的 code 發現裡就有 CNN+SELU 的 notebook
07/10 08:13, 2F

07/10 11:50, 6年前 , 3F
tensorflow怎麼還沒來?
07/10 11:50, 3F

07/10 12:55, 6年前 , 4F
XD
07/10 12:55, 4F

07/25 06:55, 6年前 , 5F
07/25 06:55, 5F
文章代碼(AID): #1RGo9ocx (DataScience)
文章代碼(AID): #1RGo9ocx (DataScience)