[問題] batch size過大時,為什麼容易overfittin

看板DataScience作者 ('selu')時間6年前 (2018/08/29 11:38), 編輯推噓8(8014)
留言22則, 8人參與, 6年前最新討論串1/3 (看更多)
如題 為什麼batch size過大時即使沒有卡在saddle point 仍比小batch size容易overfitting? 有沒有科學的解釋? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.75.126 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535513919.A.2C6.html

08/29 13:02, 6年前 , 1F
我以為 batch size 小,因為train得快,所有反而會提
08/29 13:02, 1F

08/29 13:02, 6年前 , 2F
早 overfitting 也許我錯了,期待各位神人解惑
08/29 13:02, 2F

08/29 13:39, 6年前 , 3F
batch size小,random的成分比較大,反而會在外面繞圈
08/29 13:39, 3F

08/29 13:39, 6年前 , 4F
圈,不必然收斂快吧
08/29 13:39, 4F

08/29 15:41, 6年前 , 5F
哪裡有這說法 batch大小通常只是因為記憶體不夠才要特別調
08/29 15:41, 5F

08/29 15:43, 6年前 , 6F
這邊的size過大是什麼意思 例如佔整體50%嗎?
08/29 15:43, 6F

08/29 16:36, 6年前 , 7F
mini batch 的極致算是一個sample 做一次Gradient Dec
08/29 16:36, 7F

08/29 16:36, 6年前 , 8F
ent,雖然每一步都是Randomly , 但是效果比標準GD好,
08/29 16:36, 8F

08/29 16:36, 6年前 , 9F
自己參考SGD。
08/29 16:36, 9F

08/29 16:40, 6年前 , 10F
一個模型太複雜,多訓練下去,終究會overfitting, min
08/29 16:40, 10F

08/29 16:40, 6年前 , 11F
i batch 比較早收斂所以也應該是比較早發生overfittin
08/29 16:40, 11F

08/29 16:40, 6年前 , 12F
g
08/29 16:40, 12F

08/29 16:48, 6年前 , 13F
mb 收斂這一塊我是比較這麼認為,但是否mb 會容易 ove
08/29 16:48, 13F

08/29 16:48, 6年前 , 14F
rfitting 我比較不確定
08/29 16:48, 14F

08/29 16:59, 6年前 , 15F
這裡有討論 https://goo.gl/EaepgR 這一篇跟我的認知
08/29 16:59, 15F

08/29 16:59, 6年前 , 16F
一致
08/29 16:59, 16F

08/29 18:55, 6年前 , 17F
我想原po是想問更新一樣多次數下而非經過相同epoch數
08/29 18:55, 17F

08/30 03:02, 6年前 , 18F
你應該先給這個說法的來源吧?
08/30 03:02, 18F

08/30 14:15, 6年前 , 19F
paper找一下應該有, 這方面的paper還蠻多的
08/30 14:15, 19F

08/30 19:02, 6年前 , 20F
那你怎麼不去看paper==
08/30 19:02, 20F

08/31 13:03, 6年前 , 21F
應該是 batch size 太大容易走到 local minimum 吧
08/31 13:03, 21F

08/31 21:56, 6年前 , 22F
08/31 21:56, 22F
文章代碼(AID): #1RXXK_B6 (DataScience)
文章代碼(AID): #1RXXK_B6 (DataScience)