[問題] 如何修改code讓其跑更快
不好意思,最近需要跑相當大量的資料
因此需要把code的速度做最有效的提升
這是我的兩個data
pfam.csv_IPR_NA.csv(csv不小心重複了,不過不是重點:p):
http://ppt.cc/oB18
proteinIDandGOID_norepet.csv:
http://ppt.cc/NSE3
我需要把第一個csv的第二欄跟第二個csv的第一個欄位做對應
有對應到的全部做輸出
類似下面這樣:
http://ppt.cc/UA7t
以下是我的code:
import csv
proteinID = []
GOID = []
a = 0
o = open("final.csv","w")
g = open("proteinIDandGOID_norepet.csv","r")
f = open("pfam.csv_IPR_NA.csv","r")
for row in csv.reader(g):
proteinID.append(row[0])
GOID.append(row[1])
for row in csv.reader(f):
for i in range(len(GOID)):
if row[1] == proteinID[i]:
o.write(row[0] + "," + row[1]+"," + row[2] + "," + GOID[i] + "\n")
f.close()
o.close()
g.close()
想問一下大家有沒有更有效率的寫法
感恩orz
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 182.235.15.230
※ 文章網址: http://www.ptt.cc/bbs/Python/M.1405858575.A.61E.html
推
07/20 22:21, , 1F
07/20 22:21, 1F
→
07/20 22:22, , 2F
07/20 22:22, 2F
→
07/20 22:24, , 3F
07/20 22:24, 3F
有點不懂,一樣是兩個迴圈嗎?
※ 編輯: sariel0322 (182.235.15.230), 07/20/2014 22:28:24
→
07/20 23:13, , 4F
07/20 23:13, 4F
推
07/20 23:19, , 5F
07/20 23:19, 5F
→
07/20 23:19, , 6F
07/20 23:19, 6F
→
07/20 23:48, , 7F
07/20 23:48, 7F
→
07/20 23:49, , 8F
07/20 23:49, 8F
→
07/20 23:51, , 9F
07/20 23:51, 9F
推
07/20 23:58, , 10F
07/20 23:58, 10F
推 lc85301:用dict然後存set or list如何
07/21 02:02
嗯...可行嗎?set過後應該會吧重複的都只取一個吧?
我的目的是要把兩個csv中重複match的資料都取出來作整理排列
※ 編輯: sariel0322 (120.126.36.171), 07/21/2014 13:17:11
討論串 (同標題文章)
Python 近期熱門文章
PTT數位生活區 即時熱門文章