Re: [問題] 請問為何我這程式會吃掉過多記憶體?

看板Python作者 (克斯特)時間16年前 (2009/02/08 19:33), 編輯推噓6(608)
留言14則, 2人參與, 最新討論串4/5 (看更多)
我的檔案格式是一行一行,每行有若干個數字 我要將每個數字都讀近來 說的再清楚一點,這是一個存graph的文字檔,每個數字代表各node 每行的第一個數字代表起始點,後面跟若干個數字代表這個node有連線到後面那些node 我想要自己設計資料結構來儲存這些資料 以一個一維陣列代表index 再用一個一維陣列存data 這樣若我要取編號為30的那個node有連線到那些node,我就只要下指令: data[index[30-1]:index[30]] 這樣切出來的東西就會是我要的了~ 這樣應該速度快且省記憶體(應該啦) 問題是.... 我的系統是ubuntu 64bit 一個int就佔了8byte? 我嘗試使用NumPy指定我的array內整數為Int32,可是依舊肥大 直接使用: data = range() 使用list格式,會佔用2.4G ram 若用NumPy指定整數為Int32: data = array( range() , Int32 ) 這樣記憶體會先標到2.4G,然後下降到1.9G 整體來說依舊相當肥 直接算的話,我有80M左右的資料量,資料內容是Int32,照理說就: 80M * 4byte = 320MB 我只要這麼多的記憶體空間就夠了 造成記憶體佔用如此大的原因應該就是數字也是物件的關係吧?猜的 請問若我要塞這麼大量的整數進去記憶體,使用python的話該用什麼方法呢? 我之前是學Java的,現在想說跳Python看看..... 感謝各位前輩!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.123.103.210

02/08 21:10, , 1F
graph 的話,我建議去抓 NetworkX ,可以存成 yaml 格式
02/08 21:10, 1F

02/08 21:11, , 2F
如果要跟舊格式相容,才需要自己寫 parser
02/08 21:11, 2F

02/08 21:13, , 3F
對了,你資料的 nodes 數及平均 degree 是多少?
02/08 21:13, 3F

02/08 21:16, , 4F
如果網路規模太大,可考慮採用Boost Graph Library ,
02/08 21:16, 4F

02/08 21:16, , 5F
它是 C++ 的庫,且有 Python bindings
02/08 21:16, 5F

02/08 21:37, , 6F
Kruster 用的 graph 格式剛好是 metis 用的
02/08 21:37, 6F

02/08 21:38, , 7F
s/Kruster/Kuster
02/08 21:38, 7F

02/08 21:54, , 8F
其實這個格式叫做 adjacency list ,是很標準的作法,
02/08 21:54, 8F

02/08 21:55, , 9F
NetworkX 也有支援這個格式 http://tinyurl.com/abek8l
02/08 21:55, 9F

02/08 21:57, , 10F
當初我因為每個 node 都有屬性,所以無法直接用這個格式
02/08 21:57, 10F

02/08 21:59, , 11F
NetworkX 對 Graph 的支援很完整,可省很多工夫
02/08 21:59, 11F

02/08 22:11, , 12F
你loop過程記憶體需求飆高,很可能是遇到 degree 大的節點
02/08 22:11, 12F

02/08 22:14, , 13F
既簡單沒有吃記憶體的問題
02/08 22:14, 13F

02/09 13:20, , 14F
以你文中提到的應用,直接開檔讀指定 node 的那行不就得了
02/09 13:20, 14F
文章代碼(AID): #19ZiBqtx (Python)
文章代碼(AID): #19ZiBqtx (Python)