[問題] 驗證集對最後結果的影響

看板DataScience作者 (kmdick)時間6年前 (2018/05/04 20:04), 6年前編輯推噓4(4011)
留言15則, 5人參與, 6年前最新討論串1/1
使用工具: Keras 問題內容: 小弟我在做一個迴歸的問題,我發現我把validation_split調高的時候測的結果會比較好 我以為validation 只是把一些資料分出來,拿來測val_loss藉此來評估訓練的好不好, 而且這樣訓練的樣本變少不是會訓練的比較差嗎@@ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.217.35.216 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1525435491.A.555.html

05/04 23:15, 6年前 , 1F
我覺得你也要考慮validation set太小導致正確率精準度
05/04 23:15, 1F

05/04 23:15, 6年前 , 2F
不夠的問題
05/04 23:15, 2F

05/05 08:52, 6年前 , 3F
如果今天母體資料結構上包含A,B,C,然後你的train set
05/05 08:52, 3F

05/05 08:52, 6年前 , 4F
怎樣都只有C部分,你C收集的資料不管有多多,都沒有
05/05 08:52, 4F

05/05 08:52, 6年前 , 5F
辦法在A,B發揮作用,所以最後一句的敘述有問題。
05/05 08:52, 5F

05/05 08:52, 6年前 , 6F
切割資料集部分,給一個極端的例子,第一種,你做3-fo
05/05 08:52, 6F

05/05 08:52, 6年前 , 7F
ld cv,剛好把A,B,C切開,這時你的結果怎樣都不會好;
05/05 08:52, 7F

05/05 08:52, 6年前 , 8F
第二種,你做leave one out CV,這時他A,B,C都包含,
05/05 08:52, 8F

05/05 08:52, 6年前 , 9F
所以結果怎樣都比第一種好。
05/05 08:52, 9F
大概懂你的意思 不過我是val_loss和最後拿測試集測的結果也比較好 ※ 編輯: nctukmdick (49.217.35.216), 05/05/2018 16:47:05

05/05 18:42, 6年前 , 10F
Training set 變小不見得得會變差,
05/05 18:42, 10F

05/05 18:43, 6年前 , 11F
也許妳的training set資料分佈已經足夠cover validation
05/05 18:43, 11F

05/05 18:53, 6年前 , 12F
最後結果會好可能是early stop在較正確的epoch
05/05 18:53, 12F

05/06 11:44, 6年前 , 13F
cv folds出來的Var(validate error)也可以看一下
05/06 11:44, 13F

05/06 22:44, 6年前 , 14F
val split每次調高每次最終結果都變好嗎?會不會只是
05/06 22:44, 14F

05/06 22:44, 6年前 , 15F
剛好這次選到train set分佈特別好
05/06 22:44, 15F
文章代碼(AID): #1Qx4nZLL (DataScience)
文章代碼(AID): #1Qx4nZLL (DataScience)