[問題] Imbalanced dataset使用SOMTE求教

看板DataScience作者時間2年前 (2022/05/06 22:41), 編輯推噓5(5014)
留言19則, 7人參與, 2年前最新討論串1/1
大家好 我正在做一個關於imbalanced data的分析 正樣本大概1%,feature有95個,data共6500筆左右 簡單的特徵處理後 對X_train 我先用sklearn的SMOTENC來合成正樣本(因為feature含nominal variable故用SMOTENC) 之後先簡單用logistic regression來fit X_test 結果居然發現使用SMOTENC後ROCAUC/PRAUC/F1那些的居然都變差了...... 這根本顛覆我的認知了啊@@" 可是查了程式碼和網路上爬了一堆文也還不知道是為什麼? (後來再try其他模型也都是一樣結果) 想請問各位這種結果是有可能的嗎? 已經想了一整天了QQ 感謝大家看完~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.122.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1651848080.A.D27.html

05/07 01:38, 2年前 , 1F
你有檢查你對象的normality 和countinuity?
05/07 01:38, 1F

05/07 04:21, 2年前 , 2F
看看混淆矩陣變差的是哪裡
05/07 04:21, 2F

05/07 06:39, 2年前 , 3F
試試設定class weight 然後使用bagging 來跑 logistic
05/07 06:39, 3F

05/07 06:39, 2年前 , 4F
regression
05/07 06:39, 4F

05/07 06:56, 2年前 , 5F
你列出的metrics變差的幅度大嗎?smote後看classificat
05/07 06:56, 5F

05/07 06:56, 2年前 , 6F
ion report 裡面positive class的recall應該會比原本高
05/07 06:56, 6F

05/07 06:56, 2年前 , 7F
,其他metrics降低其實蠻正常
05/07 06:56, 7F

05/07 13:09, 2年前 , 8F
樓上正解,oversampling 的意義在於強化模型辨認少樣本
05/07 13:09, 8F

05/07 13:09, 2年前 , 9F
的能力,還有 oversampling 本質上還是增加了資料的 nois
05/07 13:09, 9F

05/07 13:09, 2年前 , 10F
e ,如果你 oversample 過多樣本,反而讓 model 學到更多
05/07 13:09, 10F

05/07 13:09, 2年前 , 11F
髒東西,反而降低原本辨認多樣本的能力
05/07 13:09, 11F

05/07 13:48, 2年前 , 12F
長知識
05/07 13:48, 12F

05/08 00:09, 2年前 , 13F
感謝大家,真的長知識了
05/08 00:09, 13F

05/08 00:09, 2年前 , 14F

05/08 00:10, 2年前 , 15F
做完之後的確precision上升,RF沒變曾該是模型本身就能分
05/08 00:10, 15F

05/08 00:11, 2年前 , 16F
不平衡數據,貝氏變差應該就像前面大大說的nosie增多
05/08 00:11, 16F

05/10 00:02, 2年前 , 17F
我過去的經驗SMOTE也變差(不過變差幅度沒統計顯著差異)
05/10 00:02, 17F

05/10 00:04, 2年前 , 18F
SMOTE最根本原理是根據knn,但knn不適合高維度的問題
05/10 00:04, 18F

05/10 00:04, 2年前 , 19F
所以我認為SMOTE對高維度的問題沒太大的幫助
05/10 00:04, 19F
文章代碼(AID): #1YTJEGqd (DataScience)
文章代碼(AID): #1YTJEGqd (DataScience)