討論串[問題] 透過R使用Rhdfs package讀取超大CSV檔
共 5 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓2(2推 0噓 15→)留言17則,0人參與, 最新作者dppman (*^o^*)時間10年前 (2014/05/19 12:06), 10年前編輯資訊
1
0
2
內容預覽:
[問題類型]:. 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來). [軟體熟悉度]:. 入門(寫過其他程式,只是對語法不熟悉). [問題敘述]:. 使用R透過RHadoop的Rhdfs 1.0.8. [程式範例]:. 我目前的實驗環境,需要讀取很大的CSV File(存放在Hado
(還有1543個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者dppman (*^o^*)時間10年前 (2014/05/22 09:49), 10年前編輯資訊
1
0
2
內容預覽:
我試了repeat:. repeat {. m = hdfs.read(f). c = rawToChar(m). print(c). if ( is.null(c) ) break. }. 可是跑好久還沒跑完.... 我是用Web版的RStudio開發,看了一下m的type是raw.... Sor
(還有95個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者Wush978 (拒看低質媒體)時間10年前 (2014/05/22 13:32), 10年前編輯資訊
1
0
2
內容預覽:
建議你先測量一下throughput. ```r. start.time <- Sys.time(). repeat {. m = hdfs.read(f). duration <- as.numeric(difftime(Sys.time(), start.time, unit = "secs")
(還有284個字)

推噓0(0推 0噓 2→)留言2則,0人參與, 最新作者dppman (*^o^*)時間10年前 (2014/05/23 10:28), 編輯資訊
1
0
1
內容預覽:
測試了一下throughput:. 在同要的主機(安裝RStudio Server的主機):. Part I:. [root@CDH-RWeb01 ~]# time hadoop fs -put /tmp/201303.csv /tmp/. real 3m5.876s. user 0m32.257s
(還有499個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者Wush978 (拒看低質媒體)時間10年前 (2014/08/28 00:33), 10年前編輯資訊
0
0
1
內容預覽:
最近自己在玩hadoop-2.2.0的hdfs,. 發現已經有C client。. 試了一下,發現可以用Rcpp簡單包到R中。. 我自己測試的讀取效能約50MB/s (可能和網路有關),. 和command line的hadoop差不多。. --. 發信站: 批踢踢實業坊(ptt.cc), 來自
首頁
上一頁
1
下一頁
尾頁