[問題] categorical & continuous variable

看板R_Language作者 (芸芸)時間9年前 (2016/08/27 00:18), 9年前編輯推噓2(2012)
留言14則, 3人參與, 最新討論串1/1
之前在做project的時候 沒有多想就沒有把分類變量設成factor 所以在做變量選擇和建立模型的時候 都是把分類變量默認成continuous 像是Race分成5種(1.2.3.4.5用這五個數字代替) 但是因為現在所剩時間不多... 所以可能沒辦法再從頭改整個data mining過程 如果直接默認成continuous做出來的結果是可以的嗎? 會不會有很大的問題出現... 查了一些國內國外資訊 沒有特別講到這塊 然後好像也有人是直接就默認成continuous 想問版上各位強者有什麼想法? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 130.88.240.81 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472228289.A.B8A.html ※ 編輯: yun611 (31.205.91.208), 08/27/2016 01:18:59 ※ 編輯: yun611 (31.205.91.208), 08/27/2016 01:19:30

08/27 18:20, , 1F
非常不恰當,建議還是轉factor。
08/27 18:20, 1F

08/27 18:46, , 2F
請問一下轉factor之後,有哪些方法可以用來
08/27 18:46, 2F

08/27 18:47, , 3F
variable selection的嗎?大多數找到都是continuous情況的
08/27 18:47, 3F

08/27 18:47, , 4F
有查過group lasso但是一直做不出來.....
08/27 18:47, 4F

08/27 19:15, , 5F
或是說在有dummy的情況下,有沒有什麼選擇變量的原則?
08/27 19:15, 5F

08/27 20:34, , 6F
我不熟lasso,但建議你先給一段具體的程式碼請再大家修
08/27 20:34, 6F

08/27 20:34, , 7F
至少要知道你用什麼function之類的,不然難回應。
08/27 20:34, 7F

08/30 00:45, , 8F
continuous的變數在處理時常常假設 1與2的差距和2與3相同
08/30 00:45, 8F

08/30 00:45, , 9F
所以以race為例,如果你設定為continuous很容易處理時出
08/30 00:45, 9F

08/30 00:45, , 10F
問題
08/30 00:45, 10F

08/30 00:46, , 11F
factor的缺點在資料量不夠時,會有模型不穩定的問題
08/30 00:46, 11F

08/30 00:46, , 12F
但是通常作法是小類合併成大類,而非轉成continuous
08/30 00:46, 12F

08/30 00:46, , 13F
你必須要確保我剛剛講的假設是正確的,才用continuous處
08/30 00:46, 13F

08/30 00:46, , 14F
理會比較好
08/30 00:46, 14F
文章代碼(AID): #1Nm6l1kA (R_Language)
文章代碼(AID): #1Nm6l1kA (R_Language)