討論串[問題] batch size過大時,為什麼容易overfittin
共 3 篇文章
首頁
上一頁
1
下一頁
尾頁
內容預覽:
想像一個極端的情況,你在做梯度修正時,如果每次都是拿所有數據餵進去,然後再做修正,這意味著你每次送進去的數據都是一樣的,沒有任何隨機性,所以你在N維空間中走向優化解的路徑會是一條確定的路徑,不存在隨機性。. 深度學習的優化解本身是個非凸問題,本質上是NP hard,你能做的是盡可能走遍歷個空間來尋找
(還有679個字)
內容預覽:
不敢說自己的理解完全正確,就單純地分享一下想法.. 其實在loss function引入L1,L2,或各種regularization可以看成是對模型的參數假設. 了某種先驗分布. 對神經網路中的某一層添加L1,可以看成對該層的參數做了Lapalce分. 布的先驗,而添加L2,可以看成是做了Gaus
(還有1600個字)
首頁
上一頁
1
下一頁
尾頁