[討論] 請問如何設計具備統計意義上overfit和und已刪文
作業系統:win10,linux
問題類別:ML、DL的pipe line設計
使用工具:Python
問題內容:
小弟過去只做過依照一篇PAPER的PIPELINE,做 training set 和 testing set,透過不斷重複抽樣和hyperparameter後,找出 testing set 下每種演算法的performance,每種演算法的performance都有mean和std,然後可以找出哪種演算法的performance具備顯著最高的結論。
現在我想再更進一步做演算法做演算法預測是否有overfit還是underfit的問題
以下是我想法:
我想把 training set 再切出validation set,做n次的cross validation和hyperparameter,得到n筆validation set下的performance。
接著PIPELINE跑m次重複抽樣和hyperparameter,最後輸出m筆testing set 的performance,n*m筆validation set的performance。
請問testing_performance(std)和validation_performance(std)做比較時(當他們都高於隨機猜測):
1) validation_performance和testing_performanc無顯著差異時,可否下該演算法無overfit或underfit狀況?
2) validation_performance顯著高於 testing_performanc時,可否下該演算法有underfit狀況?
3) validation_performance顯著低於 testing_performanc時,可否下該演算法有overfit狀況?
還是各位大大有沒有其他想法 ?
或是有哪些PAPER提供這類對於underfit、overfit具備統計意義的算法和討論?
感謝萬分
--
Sent from nPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.56.96 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1640338852.A.3FD.html
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章