[問題] 多類別 不平衡 評估方法已刪文

看板DataScience作者 (PTT領導)時間5年前 (2019/01/05 21:15), 編輯推噓3(302)
留言5則, 3人參與, 5年前最新討論串1/1
想問大家 如果遇到 多類別 且 不平衡的 問題 該用什麼 指標來評估結果的好壞呢? 例如 這個confusion matrix (3 classes) fact 5 0 10 0 50 100 0 0 10000 predict 我用macro f1 會得到0.69 micro f1 會得到 0.99 ------------------------------------------------- 如果是這個confusion matrix (3 classes) fact 12 2 1 7 140 3 1000 2000 7000 predict 我用macro f1 會得到 0.5 micro f1 得到 0.7 --------------------------------------------------- 但是結果明明直觀上會覺得 下面的比較好 因為上面的相當於 只要幾乎都猜class3 而下面的 對於每個class model大部分都有預測出來 (以recall來看) -------------------------------------------------------- 但如果 用 (recall_1 + recall_2 + recall_3)/3 或是 (recall_1*recall_2*recall_3)再開3次方 這樣只有看recall是不是不太好 ----------------------------------------------------- 想問大家對於這種問題 有沒有比較適合的指標能來表示model的好壞呢? 新手見諒 先謝謝各位了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.104.46 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1546694102.A.11D.html

01/06 00:41, 5年前 , 1F
google type-2 error
01/06 00:41, 1F

01/06 00:46, 5年前 , 2F
可以試試看 Harmonic mean
01/06 00:46, 2F

01/06 00:54, 5年前 , 3F
去找kaggle,上面很多多類別問題,基本上多類別真實狀
01/06 00:54, 3F

01/06 00:54, 5年前 , 4F
況,常常都是imbalance
01/06 00:54, 4F

01/07 23:22, 5年前 , 5F
謝謝大家的意見
01/07 23:22, 5F
文章代碼(AID): #1SCAtM4T (DataScience)
文章代碼(AID): #1SCAtM4T (DataScience)