討論串[問題] batch size過大時,為什麼容易overfittin
共 3 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓8(8推 0噓 14→)留言22則,0人參與, 6年前最新作者Activation ('selu')時間6年前 (2018/08/29 11:38), 編輯資訊
0
0
0
內容預覽:
如題. 為什麼batch size過大時即使沒有卡在saddle point. 仍比小batch size容易overfitting?. 有沒有科學的解釋?. --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.75.126. 文章網址: https://www.ptt

推噓7(7推 0噓 9→)留言16則,0人參與, 6年前最新作者pipidog (如果狗狗飛上天)時間6年前 (2018/12/02 10:32), 編輯資訊
1
0
0
內容預覽:
想像一個極端的情況,你在做梯度修正時,如果每次都是拿所有數據餵進去,然後再做修正,這意味著你每次送進去的數據都是一樣的,沒有任何隨機性,所以你在N維空間中走向優化解的路徑會是一條確定的路徑,不存在隨機性。. 深度學習的優化解本身是個非凸問題,本質上是NP hard,你能做的是盡可能走遍歷個空間來尋找
(還有679個字)

推噓5(5推 0噓 0→)留言5則,0人參與, 6年前最新作者pipidog (如果狗狗飛上天)時間6年前 (2018/12/02 18:02), 6年前編輯資訊
0
0
1
內容預覽:
不敢說自己的理解完全正確,就單純地分享一下想法.. 其實在loss function引入L1,L2,或各種regularization可以看成是對模型的參數假設. 了某種先驗分布. 對神經網路中的某一層添加L1,可以看成對該層的參數做了Lapalce分. 布的先驗,而添加L2,可以看成是做了Gaus
(還有1600個字)
首頁
上一頁
1
下一頁
尾頁