Re: [問題] cross validation請益
※ 引述《NDEJG (NDE)》之銘言:
: 1.使用時機
: 最近在用PointNet去預測植物的特性,老闆不斷要我做cross validation,因為我們的資
: 料數量很少,總共只有450筆,她認為cross validation可以避免因為test set選得不好
: 導致模型有偏誤的結果,但我讀的文章都是在有多個model時,才會用cross validation
: 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我
: 誤會了什麼。
以下是個人看法,請自行斟酌
情況一:
cross-validation(CV)可以用來做模型選擇,或者是所謂的hyperparameter tuning,
模型選擇之後,再用test set評估效果。
情況二:
CV也可以在資料少的情況下,用來評估效果,在這樣的情況下,
CV類似用於情況一的test set。
要這樣做,並需要注意,你不可以用CV做hyperpatameter tuning
,然後再用CV評估效果,否則會有overfitting的問題。
如果你沒有hyperparameter tuning的需求,可以用CV來評估效果,這是比較簡單的問題。
如果你要hyperparameter tuning,又要評做效果,你必需要用
"nested cross-validation"
: 2.bias, variance
: 在讀cross validation variants的比較時,我觀察到作者們都會用bias跟variance來評
: 估這個cross validation variant的效果。Ron Kohavi 1995年的文章裡就是以bias及var
: iance評估到底哪一個variant可以最好地評估一個model。以leave one out cross valid
: ation為例,他就說是unbiased但有非常大的variance所以這個variant不甚理想。但是這
: 些文章都是以classification為基礎來推導,我想請教若是對regression model用cross
: validation時,要如何評估bias跟variance呢?
: 總結
: 我不清楚只有一個model時做cross validation的意義何在,以及若要做的話,我該如何
: 選擇哪一種cross validation呢?考慮到我們的樣本數少,老闆認為因為樣本數少,不適
: 合10 fold cross validation,論文大部分以classification來討論,想請教版友該以什
: 麼方法來評估regression的模型。
: 感謝各位的幫忙Q___Q
樣本數少的時候可以考慮用5-fold CV,我印象中CV建議至少要用5 folds,
不過這應該也只是經驗值,沒有什麼真正的學理去支持這個5數字怎麼來的。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.26.161 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1645031167.A.6F5.html
推
02/17 06:47,
2年前
, 1F
02/17 06:47, 1F
→
02/17 06:47,
2年前
, 2F
02/17 06:47, 2F
→
02/17 06:50,
2年前
, 3F
02/17 06:50, 3F
→
02/17 06:50,
2年前
, 4F
02/17 06:50, 4F
→
02/17 08:45,
2年前
, 5F
02/17 08:45, 5F
→
02/18 02:49,
2年前
, 6F
02/18 02:49, 6F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章
0
18