[問題] 資料拆分與資料前處理

看板DataScience作者 (gunhow)時間4年前 (2020/05/27 15:22), 4年前編輯推噓7(7031)
留言38則, 10人參與, 4年前最新討論串1/1
大家好,最近開始入門 Kaggle 基本的競賽, 在這些競賽中都先分好訓練跟測試資料集。 而在看過一些熱門的kernel發現, 多數人在一開始就先將training跟testing資料集合併, 接著進入EDA(Exploratory Data Analysis)階段。 其中在這個階段中需要處理缺失值的問題。 小弟想問的是 先把兩個資料集合併後,利用mean或median方式處理缺失值不會有偷看答案的問題嗎?(因為使用包含testing的資料進行處理) 非常謝謝大家的回答~ ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.70.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1590564153.A.465.html ※ 編輯: world1220 (140.115.70.106 臺灣), 05/27/2020 15:25:18 ※ 編輯: world1220 (140.115.70.106 臺灣), 05/27/2020 15:26:46

05/27 16:04, 4年前 , 1F
看使用的情境 比賽的情況下可以先拿到 test data 我覺
05/27 16:04, 1F

05/27 16:04, 4年前 , 2F
得就可以用
05/27 16:04, 2F

05/27 16:30, 4年前 , 3F
為了分數就合在一起處理
05/27 16:30, 3F

05/27 17:12, 4年前 , 4F
不會
05/27 17:12, 4F

05/27 17:52, 4年前 , 5F
非常謝謝大家回答
05/27 17:52, 5F

05/27 17:52, 4年前 , 6F
想請問hit大大 為什麼這樣不會有偷看答案的問題呢?
05/27 17:52, 6F

05/27 19:35, 4年前 , 7F
這不是偷看答案,而是讓你的mean更合理
05/27 19:35, 7F

05/27 21:27, 4年前 , 8F
謝謝truehero大大的回答。
05/27 21:27, 8F

05/27 21:27, 4年前 , 9F
對於讓mean更加合理我想我可以理解。
05/27 21:27, 9F

05/27 21:27, 4年前 , 10F
那另外想問 若是使用scale的動作時,也能夠將資料合併
05/27 21:27, 10F

05/27 21:27, 4年前 , 11F
在一起同時scale嗎?因為我過去學到的是在scale時必須
05/27 21:27, 11F

05/27 21:27, 4年前 , 12F
將資料拆分後再做這個動作。
05/27 21:27, 12F

05/28 09:16, 4年前 , 13F
假設你今天在一家公司裡,你們蒐集了很多資料,這些資料你
05/28 09:16, 13F

05/28 09:18, 4年前 , 14F
門僱用了工讀生label了20%,你希望得到剩下80%的label,那
05/28 09:18, 14F

05/28 09:19, 4年前 , 15F
現在你對那些未知label的資料做你所說的處理合理嗎?
05/28 09:19, 15F

05/28 11:53, 4年前 , 16F
就一起做scale啊,這是比賽,本來很多trick可以用就先
05/28 11:53, 16F

05/28 11:53, 4年前 , 17F
用上,尤其是連測試資料一起做分析,最後在訓練train da
05/28 11:53, 17F

05/28 11:53, 4年前 , 18F
ta來預測test data,說白了就是讓特徵分佈的尺度縮限在
05/28 11:53, 18F

05/28 11:53, 4年前 , 19F
一定範圍內而已。
05/28 11:53, 19F

05/28 13:40, 4年前 , 20F
謝謝sxy大,所以在比賽時規則沒有明訂的前提下用盡身邊
05/28 13:40, 20F

05/28 13:40, 4年前 , 21F
的資源以及手段去提高準確率是可以的。
05/28 13:40, 21F

05/28 13:40, 4年前 , 22F
那小弟我好奇如果是在實務或是在嚴謹研究上呢?也能夠
05/28 13:40, 22F

05/28 13:40, 4年前 , 23F
這麼做嗎?因為test data的定義不是只能拿來最後衡量模
05/28 13:40, 23F

05/28 13:40, 4年前 , 24F
型的表現嗎?我們在建造model的時候是不能用到任何關於
05/28 13:40, 24F

05/28 13:40, 4年前 , 25F
test data的資訊的吧?
05/28 13:40, 25F

05/28 14:56, 4年前 , 26F
我在info就補缺失值,mean用整體是比較準,只要訓練
05/28 14:56, 26F

05/28 14:56, 4年前 , 27F
時沒用到test就好
05/28 14:56, 27F

05/28 15:53, 4年前 , 28F
我的經驗啦,基本上在實務上不可能只會有一組test data,
05/28 15:53, 28F

05/28 15:53, 4年前 , 29F
通常會拆成train validation和test,而val是從train拆出
05/28 15:53, 29F

05/28 15:53, 4年前 , 30F
來的,而test則是真實的未來資料。所以模型建立時要像你
05/28 15:53, 30F

05/28 15:53, 4年前 , 31F
說的那樣處理並不是不可以,因為val就是從train當中切出
05/28 15:53, 31F

05/28 15:53, 4年前 , 32F
來的一部分,但最後驗證一定會需要一筆從來沒看過的未來
05/28 15:53, 32F

05/28 15:53, 4年前 , 33F
資料驗證才行
05/28 15:53, 33F

05/28 15:54, 4年前 , 34F
如果只是針對比賽就像前幾樓所說的囉
05/28 15:54, 34F

05/28 18:52, 4年前 , 35F
比賽最後評分的那個才是test data
05/28 18:52, 35F

05/28 18:52, 4年前 , 36F
你拿不到的
05/28 18:52, 36F

05/28 19:23, 4年前 , 37F
對欸我都忘記了,感謝樓上提醒,所以其實還是一樣的
05/28 19:23, 37F

05/28 20:03, 4年前 , 38F
了解了 謝謝上面各位的幫忙~
05/28 20:03, 38F
文章代碼(AID): #1UpXKvHb (DataScience)
文章代碼(AID): #1UpXKvHb (DataScience)