[問題] 為什麼現在新模型都很少割出test data?

看板DataScience作者 (督人無數就是我)時間3年前 (2021/08/14 15:58), 3年前編輯推噓9(9026)
留言35則, 11人參與, 最新討論串1/1
文章分類提示: test dataset - 問題: 當你想要問問題時,請使用這個類別。 為什麼現在新模型都很少割出test data? 可以試著把程式碼用網站貼出來唷 https://pastebin.com/ (如果用不到以下框架,如觀念問題請自行視情況刪除作業系統,使用工具等項目) Github上很多 作業系統:(ex:mac,win10,win8,win7,linux,etc...) Ubuntu 問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) test dataset 使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...) PyTorch/Tensorflow 問題內容: 在進行實驗的時候, 發現近三年來的研究工作, 很多都沒有切割test dataset, 論文裡也沒有列出test dataset的實驗結果. 反而都直接以validation dataset包含test dataset. 比例也從以往常用 train:val:test = 8:1:1 (7:2:1) 變成 train:val = 8:2 很多學校裡的指導教授還是要求要使用8:1:1這個鐵比例. 為什麼現在新模型都很少割出test dataset? 這些新模型其實只是舉手之勞就可以做這到件事, 而且按照指導教授的要求, 論文裡要是沒有test dataset的實驗結果, 應該是不能被刊登. 不得其解... 大大們可以詳細說明這個原因? 還有, 想知道指導教授的堅持是對的嗎? 謝謝~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.71.215.133 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1628927928.A.125.html ※ 編輯: ruthertw (111.71.215.133 臺灣), 08/14/2021 16:01:43

08/14 23:41, 3年前 , 1F
資料集規模(相對於模型維數)很大嗎?若是很大還有可能
08/14 23:41, 1F

08/14 23:42, 3年前 , 2F
training/validation/test分開
08/14 23:42, 2F

08/14 23:44, 3年前 , 3F
若是不夠就只能拆成training/test,甚至用交叉驗證硬幹
08/14 23:44, 3F

08/15 00:20, 3年前 , 4F
有看到你在八卦跟soft_job也有po 哈哈
08/15 00:20, 4F

08/15 00:21, 3年前 , 5F
歡迎來到datascience板
08/15 00:21, 5F

08/15 02:24, 3年前 , 6F
個人淺見,有錯請多指教。我覺得以”研究”的角度,用v
08/15 02:24, 6F

08/15 02:24, 3年前 , 7F
alidation調整參數看泛化能力就好了,實務上真的要應用
08/15 02:24, 7F

08/15 02:24, 3年前 , 8F
模型才需要看test,因為這才是乾淨可信能應用在未知資
08/15 02:24, 8F

08/15 02:24, 3年前 , 9F
料的指標。若是研究,反正也沒真的要拿來用,通常看val
08/15 02:24, 9F

08/15 02:24, 3年前 , 10F
idation就可以知道大概的泛化能力,然後跟其他模型比較
08/15 02:24, 10F

08/15 02:24, 3年前 , 11F
,驗證該論文提出的方法是否能造成改變。
08/15 02:24, 11F

08/15 02:31, 3年前 , 12F
我的指導教授(非本科系)也很堅持要切test,但通常學
08/15 02:31, 12F

08/15 02:31, 3年前 , 13F
校研究用的資料量都很少,模型泛化能力一定很差,就算
08/15 02:31, 13F

08/15 02:31, 3年前 , 14F
真的test分數很高好了,但test資料很少可能不到100筆,
08/15 02:31, 14F

08/15 02:31, 3年前 , 15F
那就有可能是sample的樣本跟training很像所以分數很高
08/15 02:31, 15F

08/15 02:31, 3年前 , 16F
,而我完全不能相信test結果,天底下哪有這麼好的事
08/15 02:31, 16F

08/15 02:41, 3年前 , 17F
我是認為資料量少的時候不用切test,反正結果variance
08/15 02:41, 17F

08/15 02:41, 3年前 , 18F
會很大,例如今天你第一次看test準確率有50%,然後你再
08/15 02:41, 18F

08/15 02:41, 3年前 , 19F
取得新的資料測一次(如果按照那個比例的話)會發現準
08/15 02:41, 19F

08/15 02:41, 3年前 , 20F
確率80% 所以說這種不準的數據幹嘛測?拿去給模型訓練
08/15 02:41, 20F

08/15 02:41, 3年前 , 21F
還比較不浪費。
08/15 02:41, 21F

08/15 04:10, 3年前 , 22F
正常資料集少,都會用k-folder
08/15 04:10, 22F

08/15 04:12, 3年前 , 23F
基本上應該都會切成三個group,想問下是哪一篇論文呢?
08/15 04:12, 23F

08/15 12:26, 3年前 , 24F
如果test set是自己切 然後report在paper上的時候選在
08/15 12:26, 24F

08/15 12:26, 3年前 , 25F
test set上最好的perf 這樣不就變成val set了嗎
08/15 12:26, 25F

08/15 17:45, 3年前 , 26F
傳統機器學習觀點validation set是用在模型選擇上,因
08/15 17:45, 26F

08/15 17:45, 3年前 , 27F
為你需要配置最優超參數,而這個如果用測試集做就有點作
08/15 17:45, 27F

08/15 17:45, 3年前 , 28F
弊傾向。
08/15 17:45, 28F

08/15 22:09, 3年前 , 29F
先說是那些研究工作這樣做?
08/15 22:09, 29F

08/19 20:32, , 30F
你說的新模型到底是哪些
08/19 20:32, 30F

08/19 20:32, , 31F
舉個例子看看?
08/19 20:32, 31F

09/06 08:44, , 32F
沒有test set, out-of-sample error可能會很高
09/06 08:44, 32F

09/06 08:46, , 33F
一堆研究在亂搞,做出看似很漂亮的數據,實際應用就破功
09/06 08:46, 33F

10/12 16:03, , 34F
拿validation當test真的是作弊
10/12 16:03, 34F

11/06 17:34, , 35F
11/06 17:34, 35F
文章代碼(AID): #1X5tUu4b (DataScience)
文章代碼(AID): #1X5tUu4b (DataScience)