[問題] 關於資料量太大 硬體跑不動的問題

看板DataScience作者 (nujabes)時間3年前 (2021/06/07 15:43), 3年前編輯推噓6(6017)
留言23則, 10人參與, 最新討論串1/1
最近接到個面試 需要先完成一個檔案大小約5GB的 預測分析project 但就我個人的laptop ram:8gb ssd:256gb 光檔案loading就耗費幾分鐘了 更別說要開始feature engineering or modeling 想請問 有任何雲端 不太需要訂閱功能的方式 可以完成這個project嗎 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.92.165 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1623051796.A.01A.html

06/07 16:32, 3年前 , 1F
不能分batch嗎?
06/07 16:32, 1F

06/07 16:41, 3年前 , 2F
不是,你這電腦也太弱了吧
06/07 16:41, 2F

06/07 16:41, 3年前 , 3F
我3年前做 ML,就已經最少 16GB 起跳了
06/07 16:41, 3F

06/07 16:42, 3年前 , 4F
碩班提供 16GB 電腦,我還覺得太弱,自己組 32 GB
06/07 16:42, 4F

06/07 16:43, 3年前 , 5F
如果是用 pandas,可以先讀前1萬筆就好
06/07 16:43, 5F

06/07 16:47, 3年前 , 6F
呃..個人電腦大概2015 fall的macbook pro 都跑些小專案
06/07 16:47, 6F

06/07 16:48, 3年前 , 7F
在lab 就用蘋果骨灰罈 沒這困擾
06/07 16:48, 7F

06/07 16:49, 3年前 , 8F
可能就只嘗試用部分dataset去跑
06/07 16:49, 8F

06/07 19:50, 3年前 , 9F
資料格式寫一下啊
06/07 19:50, 9F
是csv file ※ 編輯: Mutibil (180.176.92.165 臺灣), 06/07/2021 21:58:07

06/08 04:43, 3年前 , 10F
5G很小呀,你資料要先分割
06/08 04:43, 10F

06/08 11:20, 3年前 , 11F
既然是csv 應該可以分批吃吧? 注意batch的影響就好
06/08 11:20, 11F

06/08 11:22, 3年前 , 12F
不然就先看看能不能降維 說不定有一堆值全部相同的特徵XD
06/08 11:22, 12F

06/09 00:57, 3年前 , 13F
COLAB
06/09 00:57, 13F

06/09 22:24, 3年前 , 14F
做簡單的EDA,然後抽個5-10%做做看搞不好結果不錯?
06/09 22:24, 14F

06/11 02:50, 3年前 , 15F
colab
06/11 02:50, 15F

06/17 12:24, , 16F
loading完可以用numpy/pandas存成pickle/npy 下次讀取會
06/17 12:24, 16F

06/17 12:24, , 17F
比較快
06/17 12:24, 17F

06/17 12:25, , 18F
另外就是可以做一些資料處理 將無用特徵/樣本移除 再存
06/17 12:25, 18F

06/17 12:25, , 19F
成檔案 下次讀取就可以讀比較少的資料
06/17 12:25, 19F

06/25 17:20, , 20F
推樓上 分批讀取處理完資料後 就用其他檔案格式分
06/25 17:20, 20F

06/25 17:20, , 21F
檔存起來
06/25 17:20, 21F

06/25 17:21, , 22F
同時補充np.dot觸發segmentation fault時也要bat
06/25 17:21, 22F

06/25 17:21, , 23F
ch來做
06/25 17:21, 23F
文章代碼(AID): #1WlSuK0Q (DataScience)
文章代碼(AID): #1WlSuK0Q (DataScience)