[問題] 找出欄位內,重覆次數最多的資料

看板R_Language作者 (John)時間5年前 (2019/12/16 10:53), 編輯推噓2(204)
留言6則, 3人參與, 6年前最新討論串1/1
[軟體程式類別]: R [程式問題]: 資料處理,找出重複次數最多 [軟體熟悉度]: 學習約兩個月 [問題敘述]: 讀取健保資料庫,共有40個欄位。其中第14個欄位看診科別與第20個疾病種類,我想要 查詢數量最多的前10名(總共有11萬筆看診資料) 資料庫讀出來的程式命名data1 除了直接用data1[,14]與data2[,20]取出兩個需求的欄位外 也有試著用data3[,c("FUNC_TYPE","ICD9CM_1")] #第14欄位名為FUNC_TYPE, 第20欄位名 ICD9CM_1。這個方式直接取出兩組需要計算的欄位。 有找到書籍跟網路上的資訊,是不是要用dplyr套件內的group_by跟summarise兩個函數 比較容易找出來看科別與疾病的錢前10名? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.214.236.195 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1576464815.A.EE2.html

12/16 12:20, 5年前 , 1F
table 這支函數就可以了。
12/16 12:20, 1F

12/16 13:16, 5年前 , 2F
兩個欄位是各自獨立計算嗎?如果是的話用table就可以,如果
12/16 13:16, 2F

12/16 13:16, 5年前 , 3F
需要計算兩個欄位出現最多的組合前10名,可用data %>% grou
12/16 13:16, 3F

12/16 13:16, 5年前 , 4F
p_by(c1,c2) %>% tally()
12/16 13:16, 4F

01/14 02:45, 6年前 , 5F
summary(as.factor(你的資料)),sort後列出前10名,但你
01/14 02:45, 5F

01/14 02:45, 6年前 , 6F
有確定你資料乾淨嗎?
01/14 02:45, 6F
文章代碼(AID): #1Tzl6lxY (R_Language)
文章代碼(AID): #1Tzl6lxY (R_Language)