Re: [問題] merge 3 tables with summing common var

看板R_Language作者 (Edster)時間10年前 (2015/10/12 22:20), 10年前編輯推噓3(307)
留言10則, 3人參與, 最新討論串3/5 (看更多)
不會複雜的寫法,簡單一點就好,好懂好維護,雖然merge爆慢。 只會這樣(原本想用do.call, 結果不能設定 do.call(merge, data, all = T). 看哪位兄臺能教教 do.call 之中如何設定"what"其餘的參數 a=cbind("A"=sample(1:100,5), "B"=sample(1:50,5), "a"=rnorm(5), "e"=rnorm(5)) b=cbind("A"=sample(1:100,10),"B"=sample(1:50,10),"b"=rnorm(10),"e"=rnorm(10)) c=cbind("A"=sample(1:100,15),"B"=sample(1:50,15),"c"=rnorm(15),"e"=rnorm(15)) d=cbind("A"=sample(1:100,20),"B"=sample(1:50,20),"d"=rnorm(20),"e"=rnorm(20)) L = list(a,b,c,d) merge(L[[1]],L[[2]],by=c("A")) merge(L[[1]],L[[2]],by=c("A","B")) merge(L[[1]],L[[2]],by=c("A","B"),all=T) MultiMerge = function(L, by){ M=L[[1]] for(i in 2:length(L)) M = merge(M,L[[i]],by=by,all=T) return(M) } M=MultiMerge(L,by=c("A","B")) dataCol = c("e.") M = data.frame(M[,-grep(dataCol, colnames(M))], m = rowSums(M[,grep(dataCol, colnames(M))], na.rm=T)) 抱歉我一開始誤會了,原樓主還需要把相同變數名稱的列在固定欄位相加。 不過對我來說那已經不叫merge,在我的領域呢,這叫做update 比如說兩張 raster 地圖(extent並不相同)套疊並相加。 如果你的A, B兩欄是唯一的,例如地圖的座標, 用match在數個data.frame中找對應更快。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.249.19.73 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1444659636.A.249.html ※ 編輯: Edster (111.249.19.73), 10/12/2015 22:22:15 ※ 編輯: Edster (111.249.19.73), 10/12/2015 22:39:24 ※ 編輯: Edster (111.249.19.73), 10/12/2015 22:56:05

10/12 23:01, , 1F
我想E大沒看懂他要做的事情...
10/12 23:01, 1F

10/12 23:02, , 2F
多個merge 可以考慮Reduce 原po有引用我的推文
10/12 23:02, 2F

10/12 23:08, , 3F
的確沒法單純用merge完成,C大第一個方法最簡潔易懂了!
10/12 23:08, 3F
※ 編輯: Edster (140.112.64.48), 10/13/2015 13:55:17 ※ 編輯: Edster (140.112.64.48), 10/13/2015 14:59:42 ※ 編輯: Edster (140.112.64.48), 10/13/2015 15:00:13 ※ 編輯: Edster (140.112.64.48), 10/13/2015 15:04:21

10/13 15:03, , 4F
這樣做你無法自動控制哪些column重複,哪些要做和
10/13 15:03, 4F

10/13 15:04, , 5F
不過runSums的作法很漂亮
10/13 15:04, 5F

10/13 15:05, , 6F
試試看吧,可能比c大的慢就是了,畢竟merge會為了找對應
10/13 15:05, 6F

10/13 15:06, , 7F
不斷創新列,這樣比一開始就搜尋所有data.frame的對應值慢
10/13 15:06, 7F

10/13 19:31, , 8F
感謝E大提供解法 抱歉一開始造成誤解,因為data特性,
10/13 19:31, 8F

10/13 19:32, , 9F
其實是不同取樣站有不同批且不同樣本種類、個數的資料,
10/13 19:32, 9F

10/13 19:38, , 10F
所以一開始就朝處理不同行、列數的多個data去寫code
10/13 19:38, 10F
※ 編輯: Edster (140.112.64.48), 10/13/2015 20:21:49
文章代碼(AID): #1M6y6q99 (R_Language)
文章代碼(AID): #1M6y6q99 (R_Language)