[問題] 文字探勘的特徵選取問題

看板DataScience作者 (123)時間4周前 (2025/07/01 00:23), 編輯推噓2(204)
留言6則, 3人參與, 2周前最新討論串1/1
作業系統:(ex:mac,win10,win8,win7,linux,etc...) win10 問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) ML 使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...) R 問題內容: 我打算使用 TF-IDF 作文字探勘,碰到以下幾個問題: Q1:我打算用 mutual information 與 mRMR作特徵選取 我應該先做 TF-IDF 然後再做特徵選取? 還是反過來? Q2: 承上,我將降維後的詞彙作機器學習分類 (ex: svm, rf, etc) 我需要將這些文字特徵以及其他數值型特徵作標準化嗎? 如下面 code 最後一行 以及倒數第二行有註解的 step_nzv() 這個實務上也是需要的嗎? rec <- recipe(Label ~ ., data = train_data) |> step_zv(all_predictors()) |> #step_nzv(all_predictors()) |> step_normalize(all_numeric_predictors()) 謝謝各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.214.84 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1751300589.A.FD5.html

07/01 02:26, 4周前 , 1F
要不要標準化看後續的處理是不是scale invariant,基
07/01 02:26, 1F

07/01 02:26, 4周前 , 2F
本上tree based algorithm 都不用
07/01 02:26, 2F

07/04 14:59, 3周前 , 3F
要標準化應該是在降維之前做?
07/04 14:59, 3F

07/05 18:54, 3周前 , 4F
看你降維用什麼方法
07/05 18:54, 4F

07/10 08:29, 2周前 , 5F
至於tf idf和mrmr的順序可能要做個消融實驗看結果,
07/10 08:29, 5F

07/10 08:29, 2周前 , 6F
算法設計的目的上並沒辦法決定誰先誰後
07/10 08:29, 6F
文章代碼(AID): #1eOhdj_L (DataScience)
文章代碼(AID): #1eOhdj_L (DataScience)