Re: [問題] Validation set 到底在做什麼?
我們把數據分割成三等分,每次取一份出來做validation,另外兩份作trian來生成模型,這
樣每一次我就會生成三個模型,給出三個performance,然後我拿三個performance來取平均
作為總的performance,以衡量我模型的好壞.
=======================
看到這個就是我長久一來一直卡住的地方
我們資料收集可以假設一堆資料分布差不多
可是當我們切成train val test
我會比較困惑 當n flod後
資料分堆後
distance差異明顯會變高
分好的set 跟一開始的
差異在於data量少了
所以各個set distance反而變明顯
那在deep learning中又可以把這種高維度的小差距分的很好
那這樣inference的performance不就完全取決於我的training set上
我拿他去平均各個performance 這樣真的是可以知道模型好壞嗎?
假設我出來3個 0.9 0.9 0.2那這樣的話
我是不是要回頭把我的data preparing
再做好 會比去調model更好
或者再去把n調大再試試看avg performance
希望大家指點 不知道哪裡觀念錯卡住
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.250.197
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522121811.A.03B.html
推
03/27 12:12,
6年前
, 1F
03/27 12:12, 1F
→
03/27 12:13,
6年前
, 2F
03/27 12:13, 2F
舉的例子是有點誇張
因為我不太確定就算我們去test
deploy應該還是會拿分數高的去嗎?
所以說遇到這個要回去data preparing
還是把dataset fixed先調整model
哪個先優先做才會比較好
→
03/27 12:14,
6年前
, 3F
03/27 12:14, 3F
※ 編輯: leoloveivy (223.139.173.93), 03/27/2018 15:47:33
推
03/27 16:20,
6年前
, 4F
03/27 16:20, 4F
→
03/27 16:21,
6年前
, 5F
03/27 16:21, 5F
ok thanks
※ 編輯: leoloveivy (118.171.201.140), 03/27/2018 20:39:09
討論串 (同標題文章)
完整討論串 (本文為第 3 之 8 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章