[問題] 關於傳統ML的評估良劣標準

看板DataScience作者 (filialpiety)時間4年前 (2020/07/03 12:56), 4年前編輯推噓4(4032)
留言36則, 4人參與, 4年前最新討論串1/1
想請問一下sensitiviy、accuracy、precision、F1等分數良劣的判斷標準值在哪? 不知道有沒有類似結構方程式適配度指標,有文獻支持的判斷標準值 Ps:小弟有嘗試找過文獻,可是對純資訊和純統計領域不太熟,麻煩各位大大指點 感謝萬分 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.162.134 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1593752168.A.0E0.html

07/03 13:42, 4年前 , 1F
標準點就看需求 業界應該也是要測到差不多準
07/03 13:42, 1F

07/03 13:42, 4年前 , 2F
一次調到完美應該不太可能
07/03 13:42, 2F

07/03 13:55, 4年前 , 3F
這跟需求有關,標準不是唯一的
07/03 13:55, 3F

07/03 13:57, 4年前 , 4F
你很惜字如金,猜得少沒關係,重視凡猜必中,就要重視
07/03 13:57, 4F

07/03 13:57, 4年前 , 5F
precision
07/03 13:57, 5F

07/03 13:58, 4年前 , 6F
你要把所有嫌疑犯找出來,力求涵蓋真兇在內,找太多也沒關
07/03 13:58, 6F

07/03 13:58, 4年前 , 7F
係,那就會看重Recall
07/03 13:58, 7F

07/03 14:00, 4年前 , 8F
你覺得兩種都要並重就會選F1,並重卻又不等重就會選擇某個
07/03 14:00, 8F

07/03 14:07, 4年前 , 9F
某個不平衡的F-score
07/03 14:07, 9F

07/03 14:08, 4年前 , 10F
如果是Multi-label,花樣更多了XD
07/03 14:08, 10F

07/03 14:10, 4年前 , 11F
然後這非常data/task dependant,你頂多實踐了以後,回頭
07/03 14:10, 11F

07/03 14:11, 4年前 , 12F
用結果反向評估說「我們過度重視precision,結果在此資料
07/03 14:11, 12F

07/03 14:12, 4年前 , 13F
下因為太難正確分類,導致Model過度偏向幾乎全部猜False」
07/03 14:12, 13F

07/03 14:14, 4年前 , 14F
「太重視recall導致Model做了過多True猜測,結果篩除的
07/03 14:14, 14F

07/03 14:14, 4年前 , 15F
False instance過少,沒有實用價值」,這才去調整measure
07/03 14:14, 15F

07/03 14:15, 4年前 , 16F
的比重
07/03 14:15, 16F

07/03 20:02, 4年前 , 17F
不一定,看需求場景
07/03 20:02, 17F

07/04 04:20, 4年前 , 18F
各個領域可能會有標準的dataset跟目前各個metrics的
07/04 04:20, 18F

07/04 04:21, 4年前 , 19F
表現基於不同的model (學術界跟業界有很多paper)
07/04 04:21, 19F

07/04 04:22, 4年前 , 20F
例如影像辨識可能就看CIFAR-10這個dataset
07/04 04:22, 20F

07/04 04:23, 4年前 , 21F
自然語言可能會看GLUE/ WNLI這個dataset上大家在各種
07/04 04:23, 21F

07/04 04:24, 4年前 , 22F
自然語言上的task表現的怎麼樣 有一定的benchmark
07/04 04:24, 22F

07/04 04:24, 4年前 , 23F
做指標
07/04 04:24, 23F

07/05 01:42, 4年前 , 24F
07/05 01:42, 24F

07/05 01:45, 4年前 , 25F
如果是其他自己要在公司做的特定案子, d大講得很好就
07/05 01:45, 25F

07/05 01:46, 4年前 , 26F
是看實際的應用跟metrics對business的影響
07/05 01:46, 26F
感謝樓上各位大大的回應,小弟比較有概念了!會再仔細摸索。原來要看回答的問題做cu toff,感謝各位的協助! 想再多問一個問題multi-label 的部分,網路上多以二元分類,後來我看多元分類最終也 是以二元分類形式產出,請問有沒有適合新手在multi-label更深入認識上的文章呢? 感謝各位 ※ 編輯: filialpiety (223.138.67.252 臺灣), 07/05/2020 10:33:45 喔對!!我剛剛開電腦查以下這兩篇,請問這適合入門新手嗎?? Classifier chains for multi-label classification Multi-label classification: An overview ※ 編輯: filialpiety (42.75.147.11 臺灣), 07/05/2020 12:02:12

07/05 20:19, 4年前 , 27F
新手從Overview那篇看起應該很OK,不過我懷疑你會不會連基
07/05 20:19, 27F

07/05 20:20, 4年前 , 28F
礎的single-label classification都還不夠熟悉,看情況可
07/05 20:20, 28F

07/05 20:21, 4年前 , 29F
以加減先補一下。因為multi-label的版本有很多是從single
07/05 20:21, 29F

07/05 20:22, 4年前 , 30F
-label的版本延伸而來的
07/05 20:22, 30F
我single lable的概念主要從流病開始,看來得複習一下了!請問有推薦以資工角度切入 的single lable文獻或文獻的關鍵字? 感謝萬分~~ ※ 編輯: filialpiety (42.75.32.55 臺灣), 07/05/2020 21:09:01

07/06 16:25, 4年前 , 31F
一些學校的ML上課投影片應該都可以翻翻吧,然後我隨手翻了
07/06 16:25, 31F

07/06 16:25, 4年前 , 32F
一下:
07/06 16:25, 32F

07/06 16:26, 4年前 , 33F
07/06 16:26, 33F

07/06 16:26, 4年前 , 34F
這篇整理該提到的基礎方法大致都有提到啦,但是對於各項評
07/06 16:26, 34F

07/06 16:28, 4年前 , 35F
估標準沒太多著墨是個缺點,不過基礎的那些課程投影片裡面
07/06 16:28, 35F

07/06 16:28, 4年前 , 36F
應該都有吧
07/06 16:28, 36F
感謝d大,我會好好看的~謝謝您 ※ 編輯: filialpiety (223.139.211.64 臺灣), 07/08/2020 12:06:02
文章代碼(AID): #1U_hfe3W (DataScience)
文章代碼(AID): #1U_hfe3W (DataScience)