Re: [問題] 刪除大量數據的速度問題
※ 引述《stba5328 (St. Ba)》之銘言:
: 想請問一下
: 我想從x, y兩個元素數量相等list當中,刪除所有值為-9999的項,
: 並且另一list同index的項目也要刪除,但因為list中大概有180萬筆,
: -9999的聯集數量大概57萬筆,該如何加速以下的程序呢?
: def get_index(a):
: lst = [i for i, j in enumerate(a) if j == -9999]
: return lst
: indx = get_index(x)
: indy = get_index(y)
: indlst = list(set(indx) | set(indy))
: xlst = [j for i, j in enumerate(x) if i not in indx]
: ylst = [j for i, j in enumerate(y) if i not in indy]
最高指導原則:各 list 中各個元素只看一次
因為你有那麼多資料, 當然是看越少次越好
所以只能用一個 for 迴圈, 就要把兩個串列走完
可以這樣想:
-------------------
| x[0] | y[0] |
-------------------
| x[1] | y[1] |
-------------------
| x[2] | y[2] |
-------------------
| x[3] | y[3] |
. .
. .
. .
然後從上面往下走一次
如果 x[i] 與 y[i] 其中有一個是 -9999, 就捨去那一欄
把它寫成程式
BAD_VALUE = -9999
result_x = []
result_y = []
for xi, yi in zip(x, y): # Python 2 改用 izip
if x_i == BAD_VALUE or y_i == BAD_VALUE:
continue # 不要這行
result_x.append(xi)
result_y.append(yi)
這是淺顯易懂的簡化
若想再加速(用純 Python 為前題), 最簡單的方法是改用 PyPy
如果無法這樣做, 那麼就要想辦法拿掉 Python 的 for 迴圈
用 list comprehension 是一個方式:
result_rows = [
(xi, yi) for xi, yi in zip(x, y)
if x_i != BAD_VALUE and y_i != BAD_VALUE
]
但這樣出來的就不是兩個 lists, 而是像上面那樣的二維表格
當然你可以再用一個 zip 轉置它:
result_x, result_y = zip(result_rows)
但這樣就會 iterate 第二次了, 效能上就會有差
(注意這不見得會比前面用迴圈的方法慢!)
所以還是要看需求來選用
如果要再加速, 就得借用其他工具了
例如 numpy array 是一個方法
用 Cython 把這個 for 迴圈 transcompile 成 C 應該也是解
但這裡就不討論到那邊
--
「我最想要的同伴嘛,首先是要笑口常開,其次是我們能永遠不會發生誤會。
如果這些都能辦到的話,嗯,如果他是世界上第一流的橋手,也還不錯。」
-- 班尼多‧加羅素,前義大利藍隊成員
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.122.14
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1446711425.A.0D4.html
※ 編輯: uranusjr (1.162.122.14), 11/05/2015 16:17:35
推
11/06 20:51, , 1F
11/06 20:51, 1F
→
11/06 20:51, , 2F
11/06 20:51, 2F
討論串 (同標題文章)
Python 近期熱門文章
PTT數位生活區 即時熱門文章