[問題] 分類問題最後的softmax前要activation嗎?

看板DataScience作者 (孔文革)時間6年前 (2018/04/23 21:07), 6年前編輯推噓7(7012)
留言19則, 9人參與, 6年前最新討論串1/1
問題類別:DL 請問各位前輩 在分類的NN例如CNN+DNN 最後一層會接到softmax來map到0.0~1.0的output 那想請問最後一層(假設最後是DNN)(就是softmax前一層) 後面還要加activation function嗎? 有這個疑問是因為我想到softmax是用exponential 原本就有nonlinearity的作用 前面再先經過activation function(例如reLU) 好像是多此一舉?而且可能會把更多information丟掉(譬如reLU把<0的丟掉) 目前我自己實驗比較有加沒加在CNN實作上, 都是train的起來的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.159.135 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1524488842.A.03F.html

04/23 21:33, 6年前 , 1F
同意
04/23 21:33, 1F

04/23 22:15, 6年前 , 2F
小於0的值對於softmax的值影響通常微乎其微,所以我覺得
04/23 22:15, 2F

04/23 22:15, 6年前 , 3F
加relu根本沒差
04/23 22:15, 3F

04/23 22:26, 6年前 , 4F
如果所有output都是小於0呢?
04/23 22:26, 4F

04/23 22:26, 6年前 , 5F
softmax應該還是會選出一個最靠近0的
04/23 22:26, 5F

04/23 22:52, 6年前 , 6F
softmax本身就算是 activation的一種 只是 activate 最後
04/23 22:52, 6F

04/23 22:52, 6年前 , 7F
的是class 沒有說不可以只是對結果不會有幫助
04/23 22:52, 7F

04/24 11:05, 6年前 , 8F
softmax只有兩個class的話跟sigmoid一模一樣
04/24 11:05, 8F

04/24 11:05, 6年前 , 9F
你覺得呢^^
04/24 11:05, 9F
可是無論如何你最後還是要經過softmax阿 這樣梯度消失的問題還是存在 還是你認為先經過ReLU再經過softmax會讓梯度消失的問題減少? 我可能不像你那麼聰明 我覺得我看不出來先經過ReLU再經過softmax對梯度消失有什麼 特別幫助 ※ 編輯: Haikyuu (140.112.25.99), 04/24/2018 15:49:29

04/24 19:00, 6年前 , 10F
呃...只有最後一層softmax 應該不會有梯度消失的問題
04/24 19:00, 10F

04/24 19:00, 6年前 , 11F
吧 梯度消失是連續的sigmoid才會有吧
04/24 19:00, 11F

04/24 19:58, 6年前 , 12F
最後一層還是有可能梯度消失吧 如果最後都是很大的值
04/24 19:58, 12F

04/24 19:59, 6年前 , 13F
那gradient算出來就是0 若有錯請大家指正
04/24 19:59, 13F

04/24 20:44, 6年前 , 14F
我上面昰假設最後接sigmoid的activation的情況下
04/24 20:44, 14F

04/25 00:08, 6年前 , 15F
都是很大的值還是有gradient,手動微分你會發現
04/25 00:08, 15F

04/25 00:09, 6年前 , 16F
gradeint只跟p有關,只有p跑到1或是0時才沒有gradeint
04/25 00:09, 16F

04/25 08:36, 6年前 , 17F
不用怕資訊流失,麻豆會因為relu 而找出最好的權位比
04/25 08:36, 17F

04/25 08:36, 6年前 , 18F
失去的資訊得到更好的結果。我感覺。
04/25 08:36, 18F

04/27 02:26, 6年前 , 19F
我記得softmax本身就是activation function了
04/27 02:26, 19F
文章代碼(AID): #1QtTgA0_ (DataScience)
文章代碼(AID): #1QtTgA0_ (DataScience)