[問題] 找尋超大檔案內容但python會當掉

看板Python作者 (sariel)時間11年前 (2014/07/09 22:12), 11年前編輯推噓2(207)
留言9則, 3人參與, 最新討論串1/1
想請問一下大家 我現在要用從一個相當大的文字檔中找到對應的字串並寫出 但是現在遇到一個問題是會一直當掉跑不動 想請問各位有沒有不會當掉又執行速度快的方法 我讀取兩個檔案 一個A.csv是1.5mb左右,只有在第一欄有東西 一個是B.txt,約17.4GB 我要將A.csv中有對應到一樣字串的B的特定那一行寫出 我的code如下: import csv g = open("A.csv","r") f = open("B.txt","r") o = open("output.txt","w") Alist = [] for row in csv.reader(g): Alist.append(row[0]) for row in f: if row[0:5] in Alist: o.write(row+"\n") g.close() f.close() o.close() 感謝大家的幫忙 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 120.126.36.171 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1404915156.A.E73.html ※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:13:21 ※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:20:29 ※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:23:07 ※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:23:33

07/09 23:07, , 1F
把Alist換成Aset, in應該會變快
07/09 23:07, 1F

07/09 23:11, , 2F
相應改成 Aset=set(); Aset.add(); row[0:5] in Aset;
07/09 23:11, 2F

07/09 23:13, , 3F
如果在linux底下,用subprocess run grep 會不會更快點?
07/09 23:13, 3F
感謝jokester,我會試試看,如果不會當掉的話 to walao81,有在考慮,但對linux不熟,如果換過方法還是一樣的話我會這樣做的 ※ 編輯: sariel0322 (182.235.15.230), 07/09/2014 23:29:49 還是會當掉,跑第一個迴圈就當掉了,不論如何,先感謝 ※ 編輯: sariel0322 (182.235.15.230), 07/09/2014 23:41:22

07/09 23:47, , 4F
當掉的原因是啥?
07/09 23:47, 4F
不清楚,研判是第2個迴圈導致第一個迴圈有問題(我也不能理解) 曾經把第二個迴圈拿掉,第一個迴圈有跑完 但是把第二個迴圈加上去跑第一個迴圈跑到快結束時就當掉了 http://ppt.cc/fF~U 補上計數,第一個迴圈的資料記得應該是19萬筆 在18萬多時就當在那邊了 還請高手詳解... ※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 00:03:43

07/10 00:42, , 5F
你開工作管理員看一下 是不是記憶體不夠的問題
07/10 00:42, 5F

07/10 00:42, , 6F
用IDLE跑看看 紅字寫啥
07/10 00:42, 6F
看起來記憶體是沒問題、CPU也是,不過磁碟的讀取跟寫入幾乎是滿的 如果是電腦資源不夠,有更好的寫法比較不吃電腦資源的嗎? ※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 00:57:05

07/10 01:01, , 7F
用IDLE有紅字嗎?
07/10 01:01, 7F

07/10 01:01, , 8F
一直WRITE不flush 記憶體理論上會先滿才是
07/10 01:01, 8F
沒有耶,很不解 不過現在有時候放著會跑完了,可是看起來我要對應的資料(19萬個對應17GB) 結果第二個字串對應的迴圈中19萬個中的第一個結束後就自己結束了... ※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 01:08:28 補上,有時候會當在那,有時至少會跑完一個就結束了 ※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 01:09:13

07/10 01:19, , 9F
跑出來的檔案結果有寫什麼進去嗎?
07/10 01:19, 9F
文章代碼(AID): #1JlKtKvp (Python)
文章代碼(AID): #1JlKtKvp (Python)