Re: [問題] cross validation請益

看板DataScience作者 (秀才遇到兵)時間2年前 (2022/02/17 01:06), 編輯推噓1(105)
留言6則, 2人參與, 2年前最新討論串2/3 (看更多)
※ 引述《NDEJG (NDE)》之銘言: : 1.使用時機 : 最近在用PointNet去預測植物的特性,老闆不斷要我做cross validation,因為我們的資 : 料數量很少,總共只有450筆,她認為cross validation可以避免因為test set選得不好 : 導致模型有偏誤的結果,但我讀的文章都是在有多個model時,才會用cross validation : 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我 : 誤會了什麼。 以下是個人看法,請自行斟酌 情況一: cross-validation(CV)可以用來做模型選擇,或者是所謂的hyperparameter tuning, 模型選擇之後,再用test set評估效果。 情況二: CV也可以在資料少的情況下,用來評估效果,在這樣的情況下, CV類似用於情況一的test set。 要這樣做,並需要注意,你不可以用CV做hyperpatameter tuning ,然後再用CV評估效果,否則會有overfitting的問題。 如果你沒有hyperparameter tuning的需求,可以用CV來評估效果,這是比較簡單的問題。 如果你要hyperparameter tuning,又要評做效果,你必需要用 "nested cross-validation" : 2.bias, variance : 在讀cross validation variants的比較時,我觀察到作者們都會用bias跟variance來評 : 估這個cross validation variant的效果。Ron Kohavi 1995年的文章裡就是以bias及var : iance評估到底哪一個variant可以最好地評估一個model。以leave one out cross valid : ation為例,他就說是unbiased但有非常大的variance所以這個variant不甚理想。但是這 : 些文章都是以classification為基礎來推導,我想請教若是對regression model用cross : validation時,要如何評估bias跟variance呢? : 總結 : 我不清楚只有一個model時做cross validation的意義何在,以及若要做的話,我該如何 : 選擇哪一種cross validation呢?考慮到我們的樣本數少,老闆認為因為樣本數少,不適 : 合10 fold cross validation,論文大部分以classification來討論,想請教版友該以什 : 麼方法來評估regression的模型。 : 感謝各位的幫忙Q___Q 樣本數少的時候可以考慮用5-fold CV,我印象中CV建議至少要用5 folds, 不過這應該也只是經驗值,沒有什麼真正的學理去支持這個5數字怎麼來的。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.26.161 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1645031167.A.6F5.html

02/17 06:47, 2年前 , 1F
我沒讀到nested cross validation,感謝大大分享。我讀的
02/17 06:47, 1F

02/17 06:47, 2年前 , 2F
文獻也是幾乎都推薦5fold以上。
02/17 06:47, 2F

02/17 06:50, 2年前 , 3F
另外請問一下,若不需要調hyperparameter,我是隨便抓一組v
02/17 06:50, 3F

02/17 06:50, 2年前 , 4F
alidation set即可嗎?
02/17 06:50, 4F

02/17 08:45, 2年前 , 5F
不需要調hyperparameter的話,可以做一般CV就好了
02/17 08:45, 5F

02/18 02:49, 2年前 , 6F
好的,感謝大大分享Q__Q
02/18 02:49, 6F
文章代碼(AID): #1Y3Ix_Rr (DataScience)
討論串 (同標題文章)
本文引述了以下文章的的內容:
以下文章回應了本文
完整討論串 (本文為第 2 之 3 篇):
文章代碼(AID): #1Y3Ix_Rr (DataScience)