Re: [問題] cross validation請益

看板DataScience作者 (譬如朝露)時間2年前 (2022/03/21 11:13), 2年前編輯推噓1(102)
留言3則, 2人參與, 2年前最新討論串3/3 (看更多)
※ 引述《VIATOR (秀才遇到兵)》之銘言: : 標題: Re: [問題] cross validation請益 : 時間: Thu Feb 17 01:06:04 2022 : : ※ 引述《NDEJG (NDE)》之銘言: : : 1.使用時機 : : 最近在用PointNet去預測植物的特性,老闆不斷要我做cross validation,因為我們的資 : : 料數量很少,總共只有450筆,她認為cross validation可以避免因為test set選得不好 : : 導致模型有偏誤的結果,但我讀的文章都是在有多個model時,才會用cross validation : : 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我 : : 誤會了什麼。 : : 以下是個人看法,請自行斟酌 : : 情況一: : cross-validation(CV)可以用來做模型選擇,或者是所謂的hyperparameter tuning, : 模型選擇之後,再用test set評估效果。 : : 情況二: : CV也可以在資料少的情況下,用來評估效果,在這樣的情況下, : CV類似用於情況一的test set。 : 要這樣做,並需要注意,你不可以用CV做hyperpatameter tuning : ,然後再用CV評估效果,否則會有overfitting的問題。 : 如果你沒有hyperparameter tuning的需求,可以用CV來評估效果,這是比較簡單的問題。 : 如果你要hyperparameter tuning,又要評做效果,你必需要用 : "nested cross-validation" : : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.26.161 (臺灣) : ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1645031167.A.6F5.html : 推 NDEJG: 我沒讀到nested cross validation,感謝大大分享。我讀的 02/17 06:47 : → NDEJG: 文獻也是幾乎都推薦5fold以上。 02/17 06:47 : → NDEJG: 另外請問一下,若不需要調hyperparameter,我是隨便抓一組v 02/17 06:50 : → NDEJG: alidation set即可嗎? 02/17 06:50 : → VIATOR: 不需要調hyperparameter的話,可以做一般CV就好了 02/17 08:45 : → NDEJG: 好的,感謝大大分享Q__Q 02/18 02:49 最近剛好在複習CV,發現用CV出來的結果和實際上的test performance是有可能不同的, 所以你如果要用CV來代表你實驗的結果,可能需要更仔細思考是不是正確。 在經典書藉"An Introduction to Statistical Learning" 裡 https://hastie.su.domains/ISLR2/ISLRv2_website.pdf 圖5.6在討論true test error和CV-estimated test error, 結果顯示,用CV做的誤差可能會和實際上的誤差不同。 所以最保險的方法還是用一個independent test set。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.31.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1647832421.A.3B5.html ※ 編輯: VIATOR (140.116.31.126 臺灣), 03/21/2022 11:15:07

03/26 00:50, 2年前 , 1F
但是independent test set的distribution如果跟training
03/26 00:50, 1F

03/26 00:50, 2年前 , 2F
不太一致,是不是也會有偏差呢?
03/26 00:50, 2F

03/26 18:58, 2年前 , 3F
還是有可能會有偏差,但那已經是最客觀的方法了
03/26 18:58, 3F
文章代碼(AID): #1YD-rbEr (DataScience)
討論串 (同標題文章)
文章代碼(AID): #1YD-rbEr (DataScience)