PTT數位生活區 / R_Language

[問題] 大筆data frame資料的處理

看板R_Language作者Godkin (山裡的人)時間10年前 (2015/10/08 17:15)推噓2(2推 0噓 8→)

留言10則, 3人參與討論串1/2 (看更多)

[問題類型]: 效能諮詢(我想讓R 跑更快) [軟體熟悉度]: 請把以下不需要的部份刪除使用者(已經有用R 做過不少作品) [問題敘述]: 將data frame當中重複出現二次以上的資料抓出，並求取某個欄位的平均值我有一個含有接近四百萬比資料的data frame, 格式大概長這個樣子 ID1 ID2 Name1 Name2 Value ------------------------------------- m001 g001 mm1 gg1 0.5 m001 g001 mm1 gg1 0.6 m002 g001 mm2 gg1 0.3 m002 g002 mm2 gg2 0.5 m002 g002 mm2 gg2 0.7 m002 g002 mm2 gg2 0.2 m003 g002 mm3 gg2 0.1 .... .... .... ... ... ------------------------------------ 我想把當中重複出現二次以上的資料抓出來，並計算value欄位的平均使得資料變成下面這個樣子 ID1 ID2 Name1 Name2 Value ------------------------------------- m001 g001 mm1 gg1 0.55 m002 g002 mm2 gg2 0.47 .... .... .... .... .... ------------------------------------- 用過for loop + aggregate, foreach + doParallel以及用Rcpp寫for loop 的方式去處理過，但是實在是相當慢，foreach+doParallel跟Rcpp for的版本幾乎都跑了接近快12小時, 不知道版上的各位大大有沒有什麼好的建議? [環境敘述]: 請提供 sessionInfo() 的輸出結果，裡面含有所有你使用的作業系統、R 的版本和套件版本資訊，讓版友更容易找出錯誤 [關鍵字]: data frame, subsetting -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.215.230 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1444295729.A.DD1.html ※ 編輯: Godkin (140.116.215.230), 10/08/2015 17:16:36

→

10/08 17:21, , 1^F

10/08 17:21, 1^F

→

10/08 17:22, , 2^F

10/08 17:22, 2^F

→

10/08 17:22, , 3^F

10/08 17:22, 3^F

→

10/08 17:30, , 4^F

10/08 17:30, 4^F

→

10/08 17:33, , 5^F

10/08 17:33, 5^F

推

10/08 17:35, , 6^F

10/08 17:35, 6^F

→

10/08 17:35, , 7^F

10/08 17:35, 7^F

推

10/08 17:36, , 8^F

10/08 17:36, 8^F

→

10/08 17:36, , 9^F

10/08 17:36, 9^F

→

10/08 18:10, , 10^F

10/08 18:10, 10^F

‣ 返回看板[ R_Language ] 程式

‣ 更多 Godkin 的文章

文章代碼(AID): #1M5ZGntH (R_Language)

討論串 (同標題文章)

以下文章回應了本文：

1

1

Re: [問題] 大筆data frame資料的處理

10年前, 10/08

完整討論串 (本文為第 1 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

1

1

Re: [問題] 大筆data frame資料的處理

10年前, 10/08

2

10

[問題] 大筆data frame資料的處理

10年前, 10/08

在新視窗開啟完整討論串 (共2篇)

R_Language 近期熱門文章

2

2

Re: [問題] geombar分類對齊函數

1年前, 04/24

2

2

[問題] geombar分類對齊函數

1年前, 04/21

1

2

徵求R studio家教

1年前, 01/17

1

7

[問題] 請問如何多次複製1筆資料? (求救)

1年前, 11/10

4

6

[問題] 如何將資料重組 (觀察值轉成變數)？

1年前, 10/28

2

8

[問題] 可否以RODBC去連Oracle??

1年前, 08/21

1

3

[問題] augPred function 出現錯誤訊息?

2年前, 07/27

2

8

[問題] IRT相關問題

2年前, 05/01

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

4

11

Re: [閒聊] 2025買到32G迷你電腦是不是很幸運

[ PC_Shopping ]

1小時前, 07/29

16

36

[請益] 蝦皮的白牌記憶體

[ PC_Shopping ]

1小時前, 07/29

3

11

[討論] 三星折疊機保Samsung Care+

1小時前, 07/29

12

15

[心得] 璀璨奪目的鑽石-Final DX10000CLCE開箱

3小時前, 07/29

11

34

[閒聊] 2025買到32G迷你電腦是不是很幸運

[ PC_Shopping ]

4小時前, 07/29

7

8

[賣/全國/超商] 科賦 DDR4 3200 16G*2 (預定中)

[ HardwareSale ]

4小時前, 07/29

28

65

[閒聊] 50系顯卡價格走勢整理

[ PC_Shopping ]

5小時前, 07/29

10

25

[開箱] 藍寶9070GRE五年保雙風扇1440P遊戲CP首選

[ PC_Shopping ]

6小時前, 07/29

更多即時熱門文章 >>

‣ 返回看板[ R_Language ] 程式

‣ 更多 Godkin 的文章

文章代碼(AID): #1M5ZGntH (R_Language)