Re: [問題] 用*apply或dplyr::do批次跑ANOVA

看板R_Language作者celestialgod (天)時間10年前 (2015/11/17 22:07)推噓1(1推 0噓 1→)

留言2則, 1人參與討論串2/2 (看更多)

※ 引述《helixc (@_2;)》之銘言： : [問題敘述]: : 手上有一筆資料，基本上要看在四個不同樣區(site)當中，物種種類(SpeciesType) : 如何影響某個值(n)，資料如：http://pastebin.com/qyLga5Za ，要跑ANOVA和TukeyHSD。 : 要用工人智慧自己寫一樣的程式碼四次目前是做得到的，但總想找到更聰明的方法。 : 理想上想要寫個程式一次把重要的統計欄位(如F-value, P-value...etc)整理出來。 : 看了各種資料，知道在R當中各種*apply是向量化處裡資料重要的指令， : 我想做的工作理論上可以用*apply實現。 : 但目前只對基礎的apply比較熟悉，sapply/lapply今天摸一摸才比較懂， : 而tapply/mapply還還沒有機會用過。 : 在股狗的過程當中也發現dplyr::do也可以做類似的工作，也查到了Wush978的簡略介紹， : 但用一用還是有點卡住...是因為dplyr::do只能處裡data.frame的關係嗎？ : *apply或dplyr::do的參考資料都是這個網頁 http://goo.gl/WYJXtC : [程式範例]: 目前我覺得這種最漂亮還是用map XD (PS: map其實就是lapply而已) library(data.table) library(magrittr) library(purrr) dat = fread('test.txt') models = split(dat, dat$site) %>% map(~aov(n~SpeciesType, .)) AOVtables = models %>% map(~summary(.)) %>% map(~na.omit(c(.[[1]][['F value']], .[[1]][['Pr(>F)']]))) %>% do.call(rbind, .) %>% set_colnames(c("F", "p.value")) TukeyHSDtables = models %>% map(~TukeyHSD(.)$SpeciesType) : 3. 改用dplyr::do來寫，用aov，但怎麼寫都會吐錯誤訊息... : data<-data %>% group_by(site) : models <-data %>% do(mdls=aov(n~SpeciesType, data=.)) : models %>% rowwise %>% do(data.frame(summary(.$mdls))) : 錯誤訊息： : Error in as.data.frame.default(x[[i]], optional = TRUE, stringsAsFactors = : stringsAsFactors) : cannot coerce class "c("summary.aov", "listof")" to : a data.frame 我個人不太愛用do，我的使用經驗上，do在很多時候會很慢之前遇到的案例： set.seed(100) library(plyr) library(dplyr) N = 1e7 dat = data.frame(V1 = rnorm(N), V2 = rbinom(N, 4, .2), V3 = rbinom(N, 3, .1), V4 = rbinom(N, 5, .2)) st = proc.time() out1 = dat %>% group_by(V2, V3, V4) %>% arrange(V1) %>% do(head(., n = 1)) proc.time() - st # user system elapsed # 20.06 0.11 20.17 st = proc.time() out2 = ddply(dat, .(V2, V3, V4), function(x) x[which.min(x$V1),]) proc.time() - st # user system elapsed # 1.90 0.45 2.35 st = proc.time() out3 = dat %>% group_by(V2, V3, V4) %>% filter(rank(V1) == 1) proc.time() - st # user system elapsed # 3.30 0.08 3.39 all.equal(out1, out2 %>% arrange(V2, V3, V4)) # TRUE all.equal(out1, out3 %>% arrange(V2, V3, V4)) # TRUE -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.218.154.163 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1447769248.A.00E.html

推

helixc

11/17 23:06, , 1^F

11/17 23:06, 1^F

→

helixc

11/17 23:10, , 2^F

11/17 23:10, 2^F

會dplyr，看得懂 . 的用途，然後會lapply purrr只是順手捻來而已啦加油XD ※ 編輯: celestialgod (180.218.154.163), 11/17/2015 23:15:52