[問題] python sklearn DT/RF feature important

看板Python作者時間3年前 (2021/04/08 11:54), 編輯推噓0(008)
留言8則, 1人參與, 3年前最新討論串1/1
大家好 我最近正在練習使用sklearn library 主要是在用decision tree/random forest這兩個演算法 我想請問一下這兩個的feature importance (同一個dataset 以及使用sklearn的importance_ ) 我每一個feature importance的值都落在0.1-0.2之間 請問這個值本身有什麼意義嗎? 另外這個是只限於這個演算法裡面使用還是可以比較? 比如說我同一個dataset DT 的 importance 是10-20之間 然後 RF得到的是0.1-0.2之間 這兩個演算法拿到的feature importance是有可比性的嗎? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.81.22.61 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1617854095.A.AE1.html

04/09 10:50, 3年前 , 1F
Random forest 本身就是多個DT,他的 feature importa
04/09 10:50, 1F

04/09 10:50, 3年前 , 2F
nce 是所有樹加權平均過的。而這個數值主要依據樹以此
04/09 10:50, 2F

04/09 10:50, 3年前 , 3F
特徵分裂下,數據impurity的下降程度(樣本比例權重下
04/09 10:50, 3F

04/09 10:50, 3年前 , 4F
)。用途上feature importance可以用來選取特徵,例如
04/09 10:50, 4F

04/09 10:50, 3年前 , 5F
重覆刪除後面10位不重要的特徵,以找出讓模型表現最好
04/09 10:50, 5F

04/09 10:50, 3年前 , 6F
的特徵subset,但也要小心過擬合的特徵feature improt
04/09 10:50, 6F

04/09 10:50, 3年前 , 7F
ance 也會很高,容易受到誤導
04/09 10:50, 7F

04/09 10:58, 3年前 , 8F
如果要比較的話,我應該會把它轉換成 rank
04/09 10:58, 8F
文章代碼(AID): #1WRdwFhX (Python)
文章代碼(AID): #1WRdwFhX (Python)