[分享] Kaggle Bosch 生產線分析 74名, 前6%
給對資料分析有興趣的朋友,一個參考的方向,
我目前還在學習中,所以分享一些過程,有錯也請多多指教
----------------------------------------------------------
我的 CODE 是用 R 寫的,因為使用parallel,必須在 linux 環境下才能執行
https://github.com/f496328mm/kaggle_Production_Line
問題主要是 生產線分析 需要預測該產品是 良品 or 不良品
詳細過程我都寫在 github 上,
由於我沒有相關經驗,部分方法參考 kaggle 的 kernel ,
文筆可能不夠好,如果有問題可以直接寄信給我
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.26.102
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1497257737.A.19D.html
推
06/12 17:44, , 1F
06/12 17:44, 1F
推
06/12 19:06, , 2F
06/12 19:06, 2F
推
06/12 23:35, , 3F
06/12 23:35, 3F
→
06/13 00:57, , 4F
06/13 00:57, 4F
推
06/13 01:41, , 5F
06/13 01:41, 5F
推
06/13 08:30, , 6F
06/13 08:30, 6F
蠻多人問我為什麼不比真的比賽QQ
說實話 真的比賽我可能做不到這樣的結果
我做這些主要是因為
1. 我先從我有興趣的問題學習
2. 當前的比賽有時間壓力,比賽時間長度大多都是2~3個月,
事實上我幾乎都超過這些時間,不過多做幾個問題後,速度有變快
如果大家看過我參考的kernel,應該會發現,對方的結果比我好,
那為什麼要看我的文章呢?
有幾點我稍微說明:
1. 在 numeric 資料中,對方直接從900個變數中取10個,
但是並沒有告知"為什麼"是這10個,而我有說明我最後如何選擇
2. 在對 date 進行的 Feature Engineering (1) ,
對方是使用 all and L3 生產線資料,進行特徵工程,但是為什麼選這些?
實際上生產線有 L0 L1 L2 L3
而我是使用 all, L0, L1, L2, L3,這樣感覺比較合理
主要想法是,先盡可能製造 feature,再去做 feature selection,
3. 參數部分,可能不是這麼重要,不過也稍微提一下
(1): 他 nrounds 設定為 65, why? 不過這其實不是重點
(2): 他使用 2700 當作分界點,簡單來講,他認為在 test data 中
只有 2700 個不良品,但是實際上在 train data 中,
有 6879 不良品,差異頗大,所以並不清楚為何是 2700 ,
而我是用 0.25 當作分界點,我是進行測試 0.1 -> 0.2 -> 0.25
實際上我還差得很遠,就慢慢累積經驗了,有些問題也要請大大多多指教
※ 編輯: f496328mm (134.208.26.105), 06/13/2017 11:17:38
推
06/13 10:59, , 7F
06/13 10:59, 7F
推
06/13 13:30, , 8F
06/13 13:30, 8F
推
06/15 23:21, , 9F
06/15 23:21, 9F
推
06/27 16:26, , 10F
06/27 16:26, 10F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章