[問題] 大量資料groupby 速率問題

看板Python作者 (Wezzy)時間10月前 (2023/05/28 23:16), 編輯推噓1(101)
留言2則, 2人參與, 10月前最新討論串1/1
大家好,小弟目前在處理大量資料時遇到了一些問題 我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前 的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向 量化的方式去進行向量化運算 而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加 ,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花 費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多 想請問各位有沒有什麼比較好的處理方法,感謝不盡! ---- Sent from BePTT -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.245.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1685286971.A.85B.html

05/28 23:53, 10月前 , 1F
polars
05/28 23:53, 1F

05/29 11:17, 10月前 , 2F
05/29 11:17, 2F
文章代碼(AID): #1aSt0xXR (Python)
文章代碼(AID): #1aSt0xXR (Python)