[問題] 大量資料groupby 速率問題
大家好,小弟目前在處理大量資料時遇到了一些問題
我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前
的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向
量化的方式去進行向量化運算
而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加
,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花
費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多
想請問各位有沒有什麼比較好的處理方法,感謝不盡!
----
Sent from BePTT
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.245.137 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1685286971.A.85B.html
→
05/28 23:53,
1年前
, 1F
05/28 23:53, 1F
推
05/29 11:17,
1年前
, 2F
05/29 11:17, 2F
Python 近期熱門文章
PTT數位生活區 即時熱門文章