[問題] 請教關於Stochastic gradient descent

看板DataScience作者 (The Novel)時間6年前 (2018/04/03 23:54), 6年前編輯推噓16(16012)
留言28則, 7人參與, 6年前最新討論串1/2 (看更多)
請教關於stochastic gradient descent 是不是batch size設越大越好? (只要在計算量 , 記憶體可負荷下)? 我有時候mini-batch SGD train的起來 有時候train不起來 我在猜是不是因為我batch size設太小的原因? 還是有可能是iteration (epoch) 次數不夠才會造成這種情況呢? 我還是新手 有google過資料 但還是不太明白這種有時候train的起來(accuration有上來 有時候train不起來 (acc上不來) 的現象的原因 先謝謝各位前輩了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.238.128.32 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522770899.A.E47.html

04/04 00:11, 6年前 , 1F
mini batch size 會影響acc
04/04 00:11, 1F
謝謝你的回覆 請問是batch size越大越好嗎? 我嘗試過把batch size加大 仍會有這種有時候train得起來 有時候train不起來的情況 ※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:14:21

04/04 00:14, 6年前 , 2F
我的實驗 batch size128的時候 表現極差 但換成64後
04/04 00:14, 2F

04/04 00:14, 6年前 , 3F
表現好超多
04/04 00:14, 3F
你的例子是batch size比較小比較好? 我以為batch size 越小越不容易收斂? random的成分越大? 是我誤會了嗎?

04/04 00:20, 6年前 , 4F
我是新手小孬孬 很可能講錯 我說看看我的理解 你再跟
04/04 00:20, 4F

04/04 00:20, 6年前 , 5F
別人的說法交互比較
04/04 00:20, 5F
別這麼說 , 大家都是互相討論求進步 我也是新手 謝謝你願意分享 ※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:24:56

04/04 00:24, 6年前 , 6F
batch size n 就是一口氣抓n個樣本 然後根據這n個樣
04/04 00:24, 6F

04/04 00:24, 6年前 , 7F
本調參數 讓參數最適合這組樣本
04/04 00:24, 7F
對, 所以如果n越小 那n個樣本就比較難代表整體, 我想是這樣?

04/04 00:27, 6年前 , 8F
batchsize越小隨機的成分越大,適當的隨機性質可以讓model不
04/04 00:27, 8F

04/04 00:27, 6年前 , 9F
容易困在平緩的地區,讓整體收斂速度快一點。印象中是這樣,
04/04 00:27, 9F

04/04 00:27, 6年前 , 10F
有錯麻煩糾正一下XD
04/04 00:27, 10F
h大的想法跟我的一樣(握手 ※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:30:14

04/04 00:30, 6年前 , 11F
感覺就像圖片的畫素一樣 大batch =低畫素
04/04 00:30, 11F

04/04 00:38, 6年前 , 12F
所以n越大 越像母體 但犧牲掉隨機性質
04/04 00:38, 12F

04/04 00:40, 6年前 , 13F
但我們想要 像母體 又有適當的隨機性質 兩個相斥的願
04/04 00:40, 13F

04/04 00:40, 6年前 , 14F
04/04 00:40, 14F

04/04 00:42, 6年前 , 15F
有一招oversample 你可以試試
04/04 00:42, 15F

04/04 00:45, 6年前 , 16F
就是暴力的把所有樣本重複 我的實驗oversampling 後
04/04 00:45, 16F

04/04 00:45, 6年前 , 17F
模組的表現也提高很多
04/04 00:45, 17F
感謝l大的撇步分享! 我試試看 ※ 編輯: Bondrewd (36.238.128.32), 04/04/2018 00:53:03

04/04 02:43, 6年前 , 18F
batch size 設小一點可以避掉local minima trap
04/04 02:43, 18F

04/04 02:58, 6年前 , 19F

04/04 02:59, 6年前 , 20F
這篇有說一下batch size
04/04 02:59, 20F

04/04 03:11, 6年前 , 21F
推f大的好文分享
04/04 03:11, 21F

04/04 04:10, 6年前 , 22F
喔喔 好文好文
04/04 04:10, 22F

04/04 11:35, 6年前 , 23F

04/04 11:37, 6年前 , 24F
白話文圖解backpropagation 和stochastic gradient
04/04 11:37, 24F

04/04 11:38, 6年前 , 25F
descent 推薦給入門的版友 (可是是英文講解)
04/04 11:38, 25F

04/05 02:00, 6年前 , 26F
不同的問題適合不一樣的batch size大小
04/05 02:00, 26F

04/05 07:07, 6年前 , 27F
你有在每個epoch 重新隨機重排你的batch 嗎?
04/05 07:07, 27F

04/05 13:44, 6年前 , 28F
04/05 13:44, 28F
文章代碼(AID): #1QmwFJv7 (DataScience)
文章代碼(AID): #1QmwFJv7 (DataScience)