[問題] 在資料中新增一個變數來進行統計分析

看板R_Language作者 (史威利哥哥)時間9年前 (2016/08/12 02:16), 編輯推噓1(106)
留言7則, 3人參與, 最新討論串1/1
[問題類型]: 新手(沒寫過程式,R 是我的第一次) 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 拍謝拍謝 其實我真的不清楚標題要怎麼打比較好 我的問題及如下: 這是我資料的前10筆 年 性別 ......(其他變數) 100 F 101 M 100 F 102 M 103 M 101 M 102 F 104 M 104 F 102 M . . . . . (約2w筆) 我先講 我的目的:我希望可以算出各年(資料僅有100~104年而已)的男女生的 某變數統計量 所以就是說 我想要跑出一個表格 列:100年男,100年女,101年男.....,104年女(共10個) 行:meadian,mean,sd,skewness....(一些統計量而已) 所以我想到了一個方法(因為我只能想到這招 有更好的請教我一下 感恩QQ) 第一步驟:我先創造一個新變數叫做"yearsex" 然後我希望把"100年男,100年女,....,104年女" 分別用1~10代表 我以我上面的資料例子為例yearsex=c(2,3,2,5,7,3,6,9,10,5) 然後再用cbind併入我的原資料 :第二步驟:接著我再用sapply(unique(yearsex),function(x){........}) 就大功告成了 其實step2我沒問題啦,反而我想問step1怎麼做呀???????(還是有其他比這2個步驟更好的) ------------------------------------------------------------------------------ 其實還有另一個問題,不過這問題我已經用SQL解決了 但我還是想問一下 有關篩選掉重複值要如何在R進行(還是我這個要求 無法在R執行!?) 資料如下: NUM ID NAME 123 A123456789 willy 123 A123456789 willy *重複 123 A233456789 sandy 124 B123456789 wang 124 A233456789 sandy 125 A233789456 janet 126 B123456789 wang 127 C147852369 mandy 127 C147852369 mandy *重複 我的目的就是要把*的那一個row全部刪除 其餘都要留著 這辦的到嗎? 我的意思就是我希望在給定相同的NUM裡面 裡面的ID只能出現一次,不能同時出現2次 感謝解答>< [程式範例]: [環境敘述]: [關鍵字]: 分組變數,篩選重複值問題 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.114.116 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1470939418.A.AE8.html

08/12 03:56, , 1F
try unique
08/12 03:56, 1F

08/12 07:19, , 2F
若是有時間的話,建議學習一下dplyr套件 有助於資料
08/12 07:19, 2F

08/12 07:19, , 3F
方面的處理
08/12 07:19, 3F

08/12 07:21, , 4F
第一個用group_by然後summarise_all或summarise_at
08/12 07:21, 4F

08/12 07:23, , 5F
第二個可使用distinct,by the way 需要注意的是dply
08/12 07:23, 5F

08/12 07:23, , 6F
r版本方面的問題0.5.0版本有做了不少更動
08/12 07:23, 6F

08/12 09:10, , 7F
先感恩 我先去學習 研究看看@@
08/12 09:10, 7F
文章代碼(AID): #1NhC4Qhe (R_Language)
文章代碼(AID): #1NhC4Qhe (R_Language)