[分享] Kaggle Bosch 生產線分析 74名, 前6%

看板R_Language作者f496328mm (123)時間9年前 (2017/06/12 16:55)推噓9(9推 0噓 1→)

留言10則, 10人參與討論串1/1

給對資料分析有興趣的朋友，一個參考的方向，我目前還在學習中，所以分享一些過程，有錯也請多多指教 ---------------------------------------------------------- 我的 CODE 是用 R 寫的，因為使用parallel，必須在 linux 環境下才能執行 https://github.com/f496328mm/kaggle_Production_Line 問題主要是生產線分析需要預測該產品是良品 or 不良品詳細過程我都寫在 github 上，由於我沒有相關經驗，部分方法參考 kaggle 的 kernel ，文筆可能不夠好，如果有問題可以直接寄信給我 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.26.102 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1497257737.A.19D.html

推

andrew43

06/12 17:44, , 1^F

06/12 17:44, 1^F

推

jason91818

06/12 19:06, , 2^F

06/12 19:06, 2^F

推

kenny914

06/12 23:35, , 3^F

06/12 23:35, 3^F

→

a78998042a

06/13 00:57, , 4^F

06/13 00:57, 4^F

推

penolove

06/13 01:41, , 5^F

06/13 01:41, 5^F

推

zardabab

06/13 08:30, , 6^F

06/13 08:30, 6^F

蠻多人問我為什麼不比真的比賽QQ 說實話真的比賽我可能做不到這樣的結果我做這些主要是因為 1. 我先從我有興趣的問題學習 2. 當前的比賽有時間壓力，比賽時間長度大多都是2~3個月，事實上我幾乎都超過這些時間，不過多做幾個問題後，速度有變快如果大家看過我參考的kernel，應該會發現，對方的結果比我好，那為什麼要看我的文章呢？有幾點我稍微說明： 1. 在 numeric 資料中，對方直接從900個變數中取10個，但是並沒有告知"為什麼"是這10個，而我有說明我最後如何選擇 2. 在對 date 進行的 Feature Engineering (1) ，對方是使用 all and L3 生產線資料，進行特徵工程，但是為什麼選這些? 實際上生產線有 L0 L1 L2 L3 而我是使用 all, L0, L1, L2, L3，這樣感覺比較合理主要想法是，先盡可能製造 feature，再去做 feature selection， 3. 參數部分，可能不是這麼重要，不過也稍微提一下 (1): 他 nrounds 設定為 65, why? 不過這其實不是重點 (2): 他使用 2700 當作分界點，簡單來講，他認為在 test data 中只有 2700 個不良品，但是實際上在 train data 中，有 6879 不良品，差異頗大，所以並不清楚為何是 2700 ，　　　　而我是用 0.25 當作分界點，我是進行測試 0.1 -> 0.2 -> 0.25 實際上我還差得很遠，就慢慢累積經驗了，有些問題也要請大大多多指教 ※ 編輯: f496328mm (134.208.26.105), 06/13/2017 11:17:38

推

sxskr1001

06/13 10:59, , 7^F

06/13 10:59, 7^F

推

Luluemiko

06/13 13:30, , 8^F

06/13 13:30, 8^F

推

bobju

06/15 23:21, , 9^F

06/15 23:21, 9^F