PTT數位生活區 / DataScience

[問題] 類別不平衡

看板DataScience作者DennismithJR (DSJ)時間8年前 (2018/03/19 22:25)推噓7(7推 0噓 8→)

留言15則, 8人參與討論串1/3 (看更多)

想請問大家在處理分類問題時遇到標籤分布很不平衡時會怎麼處理呢翻過Kaggle上一些相關問題，幾乎沒看到有人因此做特別的抽樣或其他處理好像只要評估指標是logloss或ROC的AUC就當沒事了... 不知道是不是因為樣本少的類別仍有一定數量就能如此? 若好比說我有一組樣本標籤有五個類別，數量分別如下面所示，其比例與母體相符 A: 10000 B: 5000 C: 200 D: 15 E: 8 顯然這樣本在D、E甚至C的分類上可能會出現些問題想請問遇到這樣的分布，有什麼建議的抽樣方式呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.54.248 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521469553.A.8FB.html

推

03/19 22:38, 8年前 , 1^F

03/19 22:38, 1^F

推

03/20 00:30, 8年前 , 2^F

03/20 00:30, 2^F

推

03/20 02:12, 8年前 , 3^F

03/20 02:12, 3^F

推 NBAPredictor: Boosting的話沒什麼差不過D跟E基本上沒救了 03/20 07:53

→

03/20 07:54, 8年前 , 4^F

03/20 07:54, 4^F

不好意思這邊補充一下原文可能沒說清楚的部分其實原始資料量要比上面舉例大上許多，或許有上百倍大，因此稀少類別數或許也有數百個考量計算成本，目前都是先抽樣一小部分來嘗試下面的回文有提到可以將樣本多的類別切割，再一一和較稀少的類別拼湊訓練除此之外，不知道有沒有更省資源的抽樣方法能做到差不多的效果呢@@?

→

03/20 09:05, 8年前 , 5^F

03/20 09:05, 5^F

→

03/20 09:05, 8年前 , 6^F

03/20 09:05, 6^F

我也曾想試試類似的方法，不過還沒看過有人實際上這樣做不知道有沒有關鍵字、相關文獻或是實作案例可以讓我參考看看?

→

03/20 09:07, 8年前 , 7^F

03/20 09:07, 7^F

→

03/20 09:07, 8年前 , 8^F

03/20 09:07, 8^F

→

03/20 09:08, 8年前 , 9^F

03/20 09:08, 9^F

→

03/20 09:08, 8年前 , 10^F

03/20 09:08, 10^F

推

03/20 09:19, 8年前 , 11^F

03/20 09:19, 11^F

→

03/20 09:20, 8年前 , 12^F

03/20 09:20, 12^F

※ 編輯: DennismithJR (118.168.165.55), 03/21/2018 00:51:21

推

03/21 02:03, 8年前 , 13^F

03/21 02:03, 13^F

推

03/21 15:08, 8年前 , 14^F

03/21 15:08, 14^F

推

04/13 11:42, 8年前 , 15^F

04/13 11:42, 15^F

‣ 返回看板[ DataScience ] 研討

‣ 更多 DennismithJR 的文章

文章代碼(AID): #1QhyXnZx (DataScience)

討論串 (同標題文章)

以下文章回應了本文 (最舊先)：

6

10

Re: [問題] 類別不平衡

8年前, 03/27

0

1

Re: [問題] 類別不平衡

8年前, 03/20

完整討論串 (本文為第 1 之 3 篇)：

排序：最新先 | 最舊先 | 留言數

6

10

Re: [問題] 類別不平衡

8年前, 03/27

0

1

Re: [問題] 類別不平衡

8年前, 03/20

7

15

[問題] 類別不平衡

8年前, 03/19

在新視窗開啟完整討論串 (共3篇)

DataScience 近期熱門文章

3

17

[討論] 請問有真正把AI運用到工作、投資、或賺

[ DataScience ]

7月前, 11/26

6

17

[討論] 各位會買相關書籍來看嗎?

[ DataScience ]

8月前, 10/31

3

10

[問題] 請問想看CV相關討論適合去何處

[ DataScience ]

9月前, 10/17

2

6

[問題] 文字探勘的特徵選取問題

[ DataScience ]

1年前, 07/01

1

9

[問題] 請問kaggle有商業方案嗎? 它每週gpu的限

[ DataScience ]

1年前, 02/26

4

4

[徵才] 美國Amazon暑期實習生

[ DataScience ]

1年前, 01/23

1

6

[問題] 請教大家有推薦的GPU租用服務嗎?

[ DataScience ]

1年前, 12/20

3

8

[討論] 如何計算兩個不同欄的相似度？

[ DataScience ]

1年前, 09/07

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

15

30

Re: [請益] 約140K的ITX菜單求指點

[ PC_Shopping ]

8小時前, 07/22

6

27

[心得]為什麼不建議喇叭混搭

9小時前, 07/22

17

48

[請益] 人體工學椅推薦

[ PC_Shopping ]

9小時前, 07/22

10

13

[黑名] buglee 不回信不取貨

[ HardwareSale ]

9小時前, 07/22

2

31

[菜單] 90K遊戲機

[ PC_Shopping ]

10小時前, 07/21

7

12

[討論] i17pro電池健康度

11小時前, 07/21

5

9

Re: [問題] 電商購買相機

13小時前, 07/21

6

8

[閒聊] 求推薦萬元以下入耳式耳機

13小時前, 07/21

更多即時熱門文章 >>

‣ 返回看板[ DataScience ] 研討

‣ 更多 DennismithJR 的文章

文章代碼(AID): #1QhyXnZx (DataScience)