[問題] 幾個資料預處理問題
不好意思,又要來請教各位先進了
資料檔大概格式如下(均是類別型資料)
(實際資料約為200列乘500000行)
----------------------------
序 Y X1 X2 X3
1 1 0 1 2
2 1 0 0 0
3 2 2 1 1
4 1 1 1 2
5 2 0 2 2
6 2 1 1 2
7 2 1 0 1
8 1 2 1 1
9 1 1 2 0
10 2 0 0 2
......
......
.....
-----------------------------
以下有幾個互相獨立的資料處理動作要請教各位:
(1)如表格所示,Y有兩種類別,X有三種類別,我想做的處理是比較Y的兩種類別,其他
們的X變數是否為同樣類別
舉例:Y X1 X2 X3
1 0 1 2
1 0 2 2
2 0 0 1
2 0 1 1
然後因為X1都一樣,所以我要把X1刪除,請問這個預處理該如何於R上實現?
(2)接下來我要對每個X變數做類似這樣的處理
舉例:X1
0
1
2
1
2
2
1
2
1
1
先找出最少的類別,其所佔的比例
如X1最少的類別是0,比例為1/10,1/10就是我想得到的,只是迴圈不太明白該怎麼寫
(3)X變數做C取2組合方式(兩兩相互)對Y做邏輯斯迴歸(這邊的X可轉成數值型資料來處
理)
舉例
Y X1 X2 X3
1 2 1 0
2 1 0 1
1 2 0 0
如果資料是上述這樣
我就要建立三條迴歸
Y~X1+X2
Y~X2+X3
Y~X1+X3
之後把顯著(p<0.05)的X變數挑出來
希望各位先進能指導指導小弟
若問題描述還不夠清楚
我會再補充,先跟版上各位先進說聲謝謝了
--
Sent from my Android
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.168.177
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1429693220.A.5CD.html
→
04/22 17:01, , 1F
04/22 17:01, 1F
※ 編輯: sinclairJ (223.139.47.191), 04/22/2015 17:23:17
※ 編輯: sinclairJ (111.184.161.128), 04/22/2015 19:35:52
討論串 (同標題文章)
完整討論串 (本文為第 1 之 3 篇):
0
1
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章