[問題] 幾個資料預處理問題

看板R_Language作者 (Jun)時間9年前 (2015/04/22 17:00), 9年前編輯推噓0(001)
留言1則, 1人參與, 最新討論串1/3 (看更多)
不好意思,又要來請教各位先進了 資料檔大概格式如下(均是類別型資料) (實際資料約為200列乘500000行) ---------------------------- 序 Y X1 X2 X3 1 1 0 1 2 2 1 0 0 0 3 2 2 1 1 4 1 1 1 2 5 2 0 2 2 6 2 1 1 2 7 2 1 0 1 8 1 2 1 1 9 1 1 2 0 10 2 0 0 2 ...... ...... ..... ----------------------------- 以下有幾個互相獨立的資料處理動作要請教各位: (1)如表格所示,Y有兩種類別,X有三種類別,我想做的處理是比較Y的兩種類別,其他 們的X變數是否為同樣類別 舉例:Y X1 X2 X3 1 0 1 2 1 0 2 2 2 0 0 1 2 0 1 1 然後因為X1都一樣,所以我要把X1刪除,請問這個預處理該如何於R上實現? (2)接下來我要對每個X變數做類似這樣的處理 舉例:X1 0 1 2 1 2 2 1 2 1 1 先找出最少的類別,其所佔的比例 如X1最少的類別是0,比例為1/10,1/10就是我想得到的,只是迴圈不太明白該怎麼寫 (3)X變數做C取2組合方式(兩兩相互)對Y做邏輯斯迴歸(這邊的X可轉成數值型資料來處 理) 舉例 Y X1 X2 X3 1 2 1 0 2 1 0 1 1 2 0 0 如果資料是上述這樣 我就要建立三條迴歸 Y~X1+X2 Y~X2+X3 Y~X1+X3 之後把顯著(p<0.05)的X變數挑出來 希望各位先進能指導指導小弟 若問題描述還不夠清楚 我會再補充,先跟版上各位先進說聲謝謝了 -- Sent from my Android -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.168.177 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1429693220.A.5CD.html

04/22 17:01, , 1F
阿啊。。手機發文,格式跑了,抱歉
04/22 17:01, 1F
※ 編輯: sinclairJ (223.139.47.191), 04/22/2015 17:23:17 ※ 編輯: sinclairJ (111.184.161.128), 04/22/2015 19:35:52
文章代碼(AID): #1LDsCaND (R_Language)
文章代碼(AID): #1LDsCaND (R_Language)