Re: [問題] cross validation請益

看板DataScience作者VIATOR (譬如朝露)時間3年前 (2022/03/21 11:13)推噓1(1推 0噓 2→)

留言3則, 2人參與討論串3/3 (看更多)

※ 引述《VIATOR (秀才遇到兵)》之銘言： : 標題: Re: [問題] cross validation請益 : 時間: Thu Feb 17 01:06:04 2022 : : ※ 引述《NDEJG (NDE)》之銘言： : : 1.使用時機 : : 最近在用PointNet去預測植物的特性，老闆不斷要我做cross validation，因為我們的資 : : 料數量很少，總共只有450筆，她認為cross validation可以避免因為test set選得不好 : : 導致模型有偏誤的結果，但我讀的文章都是在有多個model時，才會用cross validation : : 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我 : : 誤會了什麼。 : : 以下是個人看法，請自行斟酌 : : 情況一: : cross-validation(CV)可以用來做模型選擇，或者是所謂的hyperparameter tuning， : 模型選擇之後，再用test set評估效果。 : : 情況二: : CV也可以在資料少的情況下，用來評估效果，在這樣的情況下， : CV類似用於情況一的test set。 : 要這樣做，並需要注意，你不可以用CV做hyperpatameter tuning : ，然後再用CV評估效果，否則會有overfitting的問題。 : 如果你沒有hyperparameter tuning的需求，可以用CV來評估效果，這是比較簡單的問題。 : 如果你要hyperparameter tuning，又要評做效果，你必需要用 : "nested cross-validation" : : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.26.161 (臺灣) : ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1645031167.A.6F5.html : 推 NDEJG: 我沒讀到nested cross validation，感謝大大分享。我讀的 02/17 06:47 : → NDEJG: 文獻也是幾乎都推薦5fold以上。 02/17 06:47 : → NDEJG: 另外請問一下，若不需要調hyperparameter，我是隨便抓一組v 02/17 06:50 : → NDEJG: alidation set即可嗎？ 02/17 06:50 : → VIATOR: 不需要調hyperparameter的話，可以做一般CV就好了 02/17 08:45 : → NDEJG: 好的，感謝大大分享Q__Q 02/18 02:49 最近剛好在複習CV，發現用CV出來的結果和實際上的test performance是有可能不同的，所以你如果要用CV來代表你實驗的結果，可能需要更仔細思考是不是正確。在經典書藉"An Introduction to Statistical Learning" 裡 https://hastie.su.domains/ISLR2/ISLRv2_website.pdf 圖5.6在討論true test error和CV-estimated test error，結果顯示，用CV做的誤差可能會和實際上的誤差不同。所以最保險的方法還是用一個independent test set。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.31.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1647832421.A.3B5.html ※ 編輯: VIATOR (140.116.31.126 臺灣), 03/21/2022 11:15:07