[問題] Imbalanced dataset使用SOMTE求教
大家好
我正在做一個關於imbalanced data的分析
正樣本大概1%,feature有95個,data共6500筆左右
簡單的特徵處理後
對X_train
我先用sklearn的SMOTENC來合成正樣本(因為feature含nominal variable故用SMOTENC)
之後先簡單用logistic regression來fit X_test
結果居然發現使用SMOTENC後ROCAUC/PRAUC/F1那些的居然都變差了......
這根本顛覆我的認知了啊@@"
可是查了程式碼和網路上爬了一堆文也還不知道是為什麼?
(後來再try其他模型也都是一樣結果)
想請問各位這種結果是有可能的嗎?
已經想了一整天了QQ
感謝大家看完~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.122.138 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1651848080.A.D27.html
→
05/07 01:38,
2年前
, 1F
05/07 01:38, 1F
推
05/07 04:21,
2年前
, 2F
05/07 04:21, 2F
推
05/07 06:39,
2年前
, 3F
05/07 06:39, 3F
→
05/07 06:39,
2年前
, 4F
05/07 06:39, 4F
推
05/07 06:56,
2年前
, 5F
05/07 06:56, 5F
→
05/07 06:56,
2年前
, 6F
05/07 06:56, 6F
→
05/07 06:56,
2年前
, 7F
05/07 06:56, 7F
推
05/07 13:09,
2年前
, 8F
05/07 13:09, 8F
→
05/07 13:09,
2年前
, 9F
05/07 13:09, 9F
→
05/07 13:09,
2年前
, 10F
05/07 13:09, 10F
→
05/07 13:09,
2年前
, 11F
05/07 13:09, 11F
→
05/07 13:48,
2年前
, 12F
05/07 13:48, 12F
→
05/08 00:09,
2年前
, 13F
05/08 00:09, 13F
→
05/08 00:09,
2年前
, 14F
05/08 00:09, 14F
→
05/08 00:10,
2年前
, 15F
05/08 00:10, 15F
→
05/08 00:11,
2年前
, 16F
05/08 00:11, 16F
推
05/10 00:02,
2年前
, 17F
05/10 00:02, 17F
→
05/10 00:04,
2年前
, 18F
05/10 00:04, 18F
→
05/10 00:04,
2年前
, 19F
05/10 00:04, 19F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章