[問題] 類別不平衡
想請問大家在處理分類問題時遇到標籤分布很不平衡時會怎麼處理呢
翻過Kaggle上一些相關問題,幾乎沒看到有人因此做特別的抽樣或其他處理
好像只要評估指標是logloss或ROC的AUC就當沒事了...
不知道是不是因為樣本少的類別仍有一定數量就能如此?
若好比說我有一組樣本
標籤有五個類別,數量分別如下面所示,其比例與母體相符
A: 10000
B: 5000
C: 200
D: 15
E: 8
顯然這樣本在D、E甚至C的分類上可能會出現些問題
想請問遇到這樣的分布,有什麼建議的抽樣方式呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.54.248
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521469553.A.8FB.html
推
03/19 22:38,
6年前
, 1F
03/19 22:38, 1F
推
03/20 00:30,
6年前
, 2F
03/20 00:30, 2F
推
03/20 02:12,
6年前
, 3F
03/20 02:12, 3F
推 NBAPredictor: Boosting的話沒什麼差 不過D跟E基本上沒救了 03/20 07:53
→
03/20 07:54,
6年前
, 4F
03/20 07:54, 4F
不好意思 這邊補充一下原文可能沒說清楚的部分
其實原始資料量要比上面舉例大上許多,或許有上百倍大,
因此稀少類別數或許也有數百個
考量計算成本,目前都是先抽樣一小部分來嘗試
下面的回文有提到可以將樣本多的類別切割,再一一和較稀少的類別拼湊訓練
除此之外,不知道有沒有更省資源的抽樣方法能做到差不多的效果呢@@?
→
03/20 09:05,
6年前
, 5F
03/20 09:05, 5F
→
03/20 09:05,
6年前
, 6F
03/20 09:05, 6F
我也曾想試試類似的方法,不過還沒看過有人實際上這樣做
不知道有沒有關鍵字、相關文獻或是實作案例可以讓我參考看看?
→
03/20 09:07,
6年前
, 7F
03/20 09:07, 7F
→
03/20 09:07,
6年前
, 8F
03/20 09:07, 8F
→
03/20 09:08,
6年前
, 9F
03/20 09:08, 9F
→
03/20 09:08,
6年前
, 10F
03/20 09:08, 10F
推
03/20 09:19,
6年前
, 11F
03/20 09:19, 11F
→
03/20 09:20,
6年前
, 12F
03/20 09:20, 12F
※ 編輯: DennismithJR (118.168.165.55), 03/21/2018 00:51:21
推
03/21 02:03,
6年前
, 13F
03/21 02:03, 13F
推
03/21 15:08,
6年前
, 14F
03/21 15:08, 14F
推
04/13 11:42,
6年前
, 15F
04/13 11:42, 15F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章