[問題] 讀取3GB的csv檔 資料太大
請問要怎麼讀取3GB的資料
有沒有比較有效率的方法?
我有用read.csv去讀
但是光要把3GB讀到電腦的RAM中 就要花很多時間(我讀個幾百MB的就要一分左右)
而且3GB我可能要超過16G的RAM去讀他 可能更多 因為我電腦只有16G
想要再加RAM到32G 只怕這樣還吃不下3G的DATA 要進行分析更是困難
分批讀是一個方法
但有沒有比read.csv更好的套件去讀這樣的data
畢竟3GB以目前的BIG DATA 應該不算大吧
會需要用到hadoop嗎?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.226.23
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1469094196.A.49B.html
→
07/21 18:28, , 1F
07/21 18:28, 1F
→
07/21 18:28, , 2F
07/21 18:28, 2F
→
07/21 18:28, , 3F
07/21 18:28, 3F
→
07/21 18:32, , 4F
07/21 18:32, 4F
→
07/21 18:32, , 5F
07/21 18:32, 5F
感謝兩位 我先試試看^_^
推
07/22 00:01, , 6F
07/22 00:01, 6F
資料型態可以改變 應該是還好
沒處理過這麼大的資料 目前光讀資料就要使用4g ram了
接下來要好好控制ram的使用 不要太多暫存檔
-------------------------------------------------
另外這樣是不是無法用snow去做平行
因為用snow要告訴每個 r 資料長什麼樣子
這樣ram會爆掉
是否用 Microsoft R Open 會比較快???
※ 編輯: f496328mm (36.231.226.23), 07/22/2016 20:20:24
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章