Re: [分享] R tips: data.table
出處
http://stackoverflow.com/questions/11486369/growing-a-data-frame-in-a-memory-efficient-manner
這篇文章探討要如何有效率一筆一筆的增加資料的數量。
一般用`data.frame`的作法:
```r
res <- data.frame(x=rep(NA,1000), y=rep(NA,1000))
tracemem(res)
for(i in 1:1000) {
res[i,"x"] <- runif(1)
res[i,"y"] <- rnorm(1)
}
```
ps. 之前我不知道`tracemem`這個指令,所以才需要用C 來印記憶體位置
`tracemem`會在記憶體被複製的時候,印出訊息
可以看到每次`[<-` 都會複製記憶體,導致當res 是很大的data.frame時效能低落
( 在我現在要處理的資料上,res 有600000 rows... )
目前我也完全不知道有什麼R 的方法,可以在增加資料上避免data.frame的複製。
( 所以我之前都寫Rcpp來對付這個問題,但是就是增加我的coding 量... )
直到我膝蓋中了一箭,看到data.table和這篇文章。
```r
library(data.table)
dt <- data.table(x=rep(0,1000), y=rep(0,1000))
tracemem(dt)
for(i in 1:1000) {
dt[i,x := runif(1)]
dt[i,y := rnorm(1)]
}
# note no mesage from tracemem
```
在我的資料上,利用data.table的效能提升至少十倍。
※ 引述《Wush978 (拒看低質媒體)》之銘言:
: [關鍵字]: R, large scale data
: [出處]: http://cran.r-project.org/web/packages/data.table/index.html
: [重點摘要]:
: data.table很適合在資料很大的時候取代data.frame:
: 我並沒有很詳細的研究底層和其他特性,但是至少data.table支援以下兩個功能:
: - 支援in memory indexing
: - 支援modification in place
: 這讓我今天在處理大量資料時,效能大大提升。
: 存取時間下降,記憶體使用量也下降。
: 所以在此分享這個套件,給所有記憶體吃緊的版友們。
--
歡迎加入 Taiwan R User Group : http://www.facebook.com/Tw.R.User
我們每週一都有在「政大公企中心(台北市金華街187號)西樓WB05」
舉辦Machine Learning / Data Mining Monday:
報名 http://www.meetup.com/Taiwan-R/
聚會影片 https://www.youtube.com/user/TWuseRGroup
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.45.149.151
推
05/11 12:30, , 1F
05/11 12:30, 1F
→
05/11 12:31, , 2F
05/11 12:31, 2F
→
05/11 12:33, , 3F
05/11 12:33, 3F
→
05/11 12:34, , 4F
05/11 12:34, 4F
→
05/11 13:10, , 5F
05/11 13:10, 5F
→
05/11 13:10, , 6F
05/11 13:10, 6F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章