[問題] 讀取3GB的csv檔 資料太大

看板R_Language作者 (為什麼會流淚)時間9年前 (2016/07/21 17:43), 9年前編輯推噓1(105)
留言6則, 3人參與, 最新討論串1/1
請問要怎麼讀取3GB的資料 有沒有比較有效率的方法? 我有用read.csv去讀 但是光要把3GB讀到電腦的RAM中 就要花很多時間(我讀個幾百MB的就要一分左右) 而且3GB我可能要超過16G的RAM去讀他 可能更多 因為我電腦只有16G 想要再加RAM到32G 只怕這樣還吃不下3G的DATA 要進行分析更是困難 分批讀是一個方法 但有沒有比read.csv更好的套件去讀這樣的data 畢竟3GB以目前的BIG DATA 應該不算大吧 會需要用到hadoop嗎? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.226.23 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1469094196.A.49B.html

07/21 18:28, , 1F
可以用用看fread
07/21 18:28, 1F

07/21 18:28, , 3F
s/fread
07/21 18:28, 3F

07/21 18:32, , 4F
3G fread + 16G記憶體就可以處理了
07/21 18:32, 4F

07/21 18:32, , 5F
完全用不到hadoop
07/21 18:32, 5F
感謝兩位 我先試試看^_^

07/22 00:01, , 6F
檢查一下你的型態是不是你要的
07/22 00:01, 6F
資料型態可以改變  應該是還好 沒處理過這麼大的資料 目前光讀資料就要使用4g ram了 接下來要好好控制ram的使用 不要太多暫存檔 ------------------------------------------------- 另外這樣是不是無法用snow去做平行 因為用snow要告訴每個 r 資料長什麼樣子 這樣ram會爆掉 是否用 Microsoft R Open 會比較快??? ※ 編輯: f496328mm (36.231.226.23), 07/22/2016 20:20:24
文章代碼(AID): #1Na9aqIR (R_Language)
文章代碼(AID): #1Na9aqIR (R_Language)