[問題] cross validation請益

看板DataScience作者 (NDE)時間2年前 (2022/02/14 04:11), 2年前編輯推噓5(5020)
留言25則, 7人參與, 2年前最新討論串1/3 (看更多)
1.使用時機 最近在用PointNet去預測植物的特性,老闆不斷要我做cross validation,因為我們的資 料數量很少,總共只有450筆,她認為cross validation可以避免因為test set選得不好 導致模型有偏誤的結果,但我讀的文章都是在有多個model時,才會用cross validation 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我 誤會了什麼。 2.bias, variance 在讀cross validation variants的比較時,我觀察到作者們都會用bias跟variance來評 估這個cross validation variant的效果。Ron Kohavi 1995年的文章裡就是以bias及var iance評估到底哪一個variant可以最好地評估一個model。以leave one out cross valid ation為例,他就說是unbiased但有非常大的variance所以這個variant不甚理想。但是這 些文章都是以classification為基礎來推導,我想請教若是對regression model用cross validation時,要如何評估bias跟variance呢? 總結 我不清楚只有一個model時做cross validation的意義何在,以及若要做的話,我該如何 選擇哪一種cross validation呢?考慮到我們的樣本數少,老闆認為因為樣本數少,不適 合10 fold cross validation,論文大部分以classification來討論,想請教版友該以什 麼方法來評估regression的模型。 感謝各位的幫忙Q___Q -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 66.253.158.23 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1644783084.A.35F.html

02/14 11:01, 2年前 , 1F
實際應用上老闆是不在乎var,
02/14 11:01, 1F

02/14 11:01, 2年前 , 2F
準確度數據好看才是真理....
02/14 11:01, 2F
她現在不在乎,但下個月可能會再回來問我G___G

02/14 13:21, 2年前 , 3F
老闆不要10 FOLD ,你就用2 FOLD 3 FOLD 5 FOLD
02/14 13:21, 3F

02/14 13:23, 2年前 , 4F
找出一個切法能讓 OOF平均最高 ,
02/14 13:23, 4F

02/14 13:44, 2年前 , 5F
不 10-Fold 就給他一個 Leave-one-out 啊
02/14 13:44, 5F
她一開始叫我做10fold,現在說10太多,我怕沒個依據她到時候3-10每個都試一次,我真 的會畢不了業

02/15 13:27, 2年前 , 6F
一般都是做5 fold 不過只有450筆 不適合做ML DL吧
02/15 13:27, 6F
農業資料蒐集不容易,蠻多人都是數據很少還是硬做的,說實話我也覺得太少,但我也是 被老闆抓來硬做,沒得商量的。

02/15 13:28, 2年前 , 7F
另外 超過2-3年的文章都是上古文章
02/15 13:28, 7F
沒看到近幾年有類似的討論,只好考古了 ※ 編輯: NDEJG (66.253.158.26 美國), 02/15/2022 23:44:01

02/16 12:19, 2年前 , 8F
多個模型的話就是比較cross_val_score去比較平均的mse或
02/16 12:19, 8F

02/16 12:19, 2年前 , 9F
mae等等哪個低
02/16 12:19, 9F

02/16 12:19, 2年前 , 10F
單模的話可以把每個folde的mse或mae都算出來 畫成折線圖
02/16 12:19, 10F

02/16 12:19, 2年前 , 11F
搭配std判斷資料的robustness
02/16 12:19, 11F
單模的話是取k組當testing set嗎?

02/16 12:24, 2年前 , 12F
可以參考下面各種 cv 方法 https://scikit-learn.org/sta
02/16 12:24, 12F

02/16 12:24, 2年前 , 13F
ble/modules/cross_validation.html
02/16 12:24, 13F
感謝分享,我有些文章就是從這個頁面找的xD ※ 編輯: NDEJG (128.210.106.49 美國), 02/17/2022 06:58:28

02/17 15:00, 2年前 , 14F
有點不太確定你說的testing set的意思,我的認知是all d
02/17 15:00, 14F

02/17 15:00, 2年前 , 15F
ata 先分成training set 和 testing set,針對training
02/17 15:00, 15F

02/17 15:00, 2年前 , 16F
set去做k-fold cross validation 去確保build出來的模型
02/17 15:00, 16F

02/17 15:00, 2年前 , 17F
參數會是最好的,當然fold越多的話 模型穩健度會越高,
02/17 15:00, 17F

02/17 15:00, 2年前 , 18F
那這k個fold都會有你放進cross_val_score裡面scoring參
02/17 15:00, 18F

02/17 15:00, 2年前 , 19F
數的指標,看你幾個fold,那這k個fold可以驗證你放的模
02/17 15:00, 19F

02/17 15:00, 2年前 , 20F
型的穩健性,可以透過std判斷
02/17 15:00, 20F

02/18 02:49, 2年前 , 21F
了解,感謝大大分享Q_Q
02/18 02:49, 21F

03/15 08:01, 2年前 , 22F
第二個問題,regression要怎麼計算bias =target lab
03/15 08:01, 22F

03/15 08:01, 2年前 , 23F
el-mean(模型預測出來的) 計算variance=var(模型預
03/15 08:01, 23F

03/15 08:01, 2年前 , 24F
測出來的)
03/15 08:01, 24F

03/15 08:03, 2年前 , 25F
這些都是基本統計的內容, 回去複習哈哈哈
03/15 08:03, 25F
文章代碼(AID): #1Y2MNiDV (DataScience)
討論串 (同標題文章)
文章代碼(AID): #1Y2MNiDV (DataScience)