[問題] 找尋超大檔案內容但python會當掉
想請問一下大家
我現在要用從一個相當大的文字檔中找到對應的字串並寫出
但是現在遇到一個問題是會一直當掉跑不動
想請問各位有沒有不會當掉又執行速度快的方法
我讀取兩個檔案
一個A.csv是1.5mb左右,只有在第一欄有東西
一個是B.txt,約17.4GB
我要將A.csv中有對應到一樣字串的B的特定那一行寫出
我的code如下:
import csv
g = open("A.csv","r")
f = open("B.txt","r")
o = open("output.txt","w")
Alist = []
for row in csv.reader(g):
Alist.append(row[0])
for row in f:
if row[0:5] in Alist:
o.write(row+"\n")
g.close()
f.close()
o.close()
感謝大家的幫忙
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 120.126.36.171
※ 文章網址: http://www.ptt.cc/bbs/Python/M.1404915156.A.E73.html
※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:13:21
※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:20:29
※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:23:07
※ 編輯: sariel0322 (120.126.36.171), 07/09/2014 22:23:33
推
07/09 23:07, , 1F
07/09 23:07, 1F
→
07/09 23:11, , 2F
07/09 23:11, 2F
推
07/09 23:13, , 3F
07/09 23:13, 3F
感謝jokester,我會試試看,如果不會當掉的話
to walao81,有在考慮,但對linux不熟,如果換過方法還是一樣的話我會這樣做的
※ 編輯: sariel0322 (182.235.15.230), 07/09/2014 23:29:49
還是會當掉,跑第一個迴圈就當掉了,不論如何,先感謝
※ 編輯: sariel0322 (182.235.15.230), 07/09/2014 23:41:22
→
07/09 23:47, , 4F
07/09 23:47, 4F
不清楚,研判是第2個迴圈導致第一個迴圈有問題(我也不能理解)
曾經把第二個迴圈拿掉,第一個迴圈有跑完
但是把第二個迴圈加上去跑第一個迴圈跑到快結束時就當掉了
http://ppt.cc/fF~U
補上計數,第一個迴圈的資料記得應該是19萬筆
在18萬多時就當在那邊了
還請高手詳解...
※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 00:03:43
→
07/10 00:42, , 5F
07/10 00:42, 5F
→
07/10 00:42, , 6F
07/10 00:42, 6F
看起來記憶體是沒問題、CPU也是,不過磁碟的讀取跟寫入幾乎是滿的
如果是電腦資源不夠,有更好的寫法比較不吃電腦資源的嗎?
※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 00:57:05
→
07/10 01:01, , 7F
07/10 01:01, 7F
→
07/10 01:01, , 8F
07/10 01:01, 8F
沒有耶,很不解
不過現在有時候放著會跑完了,可是看起來我要對應的資料(19萬個對應17GB)
結果第二個字串對應的迴圈中19萬個中的第一個結束後就自己結束了...
※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 01:08:28
補上,有時候會當在那,有時至少會跑完一個就結束了
※ 編輯: sariel0322 (182.235.15.230), 07/10/2014 01:09:13
→
07/10 01:19, , 9F
07/10 01:19, 9F
Python 近期熱門文章
PTT數位生活區 即時熱門文章