PTT數位生活區 / R_Language

[問題] 透過R使用Rhdfs package讀取超大CSV檔

看板R_Language作者dppman (*^o^*)時間11年前 (2014/05/19 12:06)推噓2(2推 0噓 15→)

留言17則, 3人參與討論串1/5 (看更多)

[問題類型]: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式，只是對語法不熟悉) [問題敘述]: 使用R透過RHadoop的Rhdfs 1.0.8 [程式範例]: 我目前的實驗環境，需要讀取很大的CSV File（存放在Hadoop的HDFS上，檔案大小幾乎都大於20GB），我使用了RHdoop的rhdfs R Package Ref. https://github.com/RevolutionAnalytics/RHadoop/wiki 使用Rstudio Web版開發，原始碼如下 ************************************************************************************************* Sys.setenv(HADOOP_CMD="/usr/lib/hadoop/bin/hadoop") Sys.setenv(HADOOP_STREAMING="/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.2.0.6.0-101.jar") Sys.setenv(HADOOP_COMMON_LIB_NATIVE_DIR="/usr/lib/hadoop/lib/native/") library(rmr2); library(rhdfs); library(lubridate); hdfs.init(); f = hdfs.file("/bigdata/rawdata/201312.csv","r",buffersize=104857600); m = hdfs.read(f); c = rawToChar(m); data = read.table(textConnection(c), sep = ","); ************************************************************************************************* 讀完後，發現它只讀進了前一千五百多筆的資料，正確應該有一億多筆 ************************************************************************************************* 去Google了一下，有查到下列這個解的方向 “rhdfs uses the java api for reading files stored in hdfs. That api will not necessarily read the entire file in one shot. It will return some number of bytes for each read. When it reaches the end of the file it returns -1. In the case of rhdfs, and end of the file will return NULL. So, you need to loop on the hdfs.read call until NULL is returned” 不過看了rhdfs的手冊，並沒有仔細提到上面解法關於hdfs.read()的行為:< 不知道有人有這方面經驗嗎？ [關鍵字]: R, Large Scale Data Set, Big Data, Hadoop, RHadoop, CSV, HDFS, rhdfs Thanks in advance! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.251.38.1 ※ 文章網址: http://www.ptt.cc/bbs/R_Language/M.1400472388.A.FDB.html ※ 編輯: dppman (60.251.38.1), 05/19/2014 12:07:32 ※ 編輯: dppman (60.251.38.1), 05/19/2014 12:18:34

推

05/19 13:01, , 1^F

05/19 13:01, 1^F

→

05/19 15:13, , 2^F

05/19 15:13, 2^F

→

05/19 15:14, , 3^F

05/19 15:14, 3^F

推

05/19 15:46, , 4^F

05/19 15:46, 4^F

→

05/19 16:11, , 5^F

05/19 16:11, 5^F

→

05/19 16:22, , 6^F

05/19 16:22, 6^F

→

05/19 16:23, , 7^F

05/19 16:23, 7^F

→

05/19 16:25, , 8^F

05/19 16:25, 8^F

※ 編輯: dppman (59.120.150.53), 05/19/2014 16:26:22

→

05/19 16:33, , 9^F

05/19 16:33, 9^F

→

05/19 16:33, , 10^F

05/19 16:33, 10^F

→

05/19 16:33, , 11^F

05/19 16:33, 11^F

→

05/19 16:33, , 12^F

05/19 16:33, 12^F

→

05/26 10:31, , 13^F

05/26 10:31, 13^F

→

05/29 11:58, , 14^F

05/29 11:58, 14^F

→

05/29 11:58, , 15^F

05/29 11:58, 15^F

→

05/29 13:50, , 16^F

05/29 13:50, 16^F

→

05/29 13:51, , 17^F

05/29 13:51, 17^F

‣ 返回看板[ R_Language ] 程式

‣ 更多 dppman 的文章

文章代碼(AID): #1JUOD4_R (R_Language)

討論串 (同標題文章)

以下文章回應了本文：

Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔

11年前, 05/22

完整討論串 (本文為第 1 之 5 篇)：

排序：最新先 | 最舊先 | 留言數

Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔

11年前, 08/28

0

2

Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔

11年前, 05/23

Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔

11年前, 05/22

Re: [問題] 透過R使用Rhdfs package讀取超大CSV檔

11年前, 05/22

2

17

[問題] 透過R使用Rhdfs package讀取超大CSV檔

11年前, 05/19

在新視窗開啟完整討論串 (共5篇)

R_Language 近期熱門文章

2

2

Re: [問題] geombar分類對齊函數

2月前, 04/24

2

2

[問題] geombar分類對齊函數

2月前, 04/21

1

2

徵求R studio家教

6月前, 01/17

1

7

[問題] 請問如何多次複製1筆資料? (求救)

8月前, 11/10

4

6

[問題] 如何將資料重組 (觀察值轉成變數)？

8月前, 10/28

2

8

[問題] 可否以RODBC去連Oracle??

11月前, 08/21

1

3

[問題] augPred function 出現錯誤訊息?

11月前, 07/27

2

8

[問題] IRT相關問題

1年前, 05/01

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

12

19

[心得] 整機全球啟動 9800X3D+5090

[ PC_Shopping ]

5小時前, 07/19

5

9

Re: [賣/台中全國]零件機 HP 14-dq1033cl

[ nb-shopping ]

6小時前, 07/19

16

63

[請益] 尋找代替Adobe 的軟體

[ PC_Shopping ]

7小時前, 07/18

8

9

[心得] 家訪只是過程-Linn Selekt Dsm Organik

8小時前, 07/18

9

33

[請益] 現在B550主機板推薦?

[ PC_Shopping ]

9小時前, 07/18

46

150

Re: [情報] 視博通結束全漢全產品代理合作

[ PC_Shopping ]

10小時前, 07/18

6

26

[菜單] 6k內升級顯卡

[ PC_Shopping ]

10小時前, 07/18

16

36

Re: [新聞] 黃仁勳最愛手機竟然是Google Pixel 他親

11小時前, 07/18

更多即時熱門文章 >>

‣ 返回看板[ R_Language ] 程式

‣ 更多 dppman 的文章

文章代碼(AID): #1JUOD4_R (R_Language)