Re: [問題] 刪除大量數據的速度問題

看板Python作者 (←這人是超級笨蛋)時間10年前 (2015/11/05 16:17), 10年前編輯推噓1(101)
留言2則, 1人參與, 最新討論串2/2 (看更多)
※ 引述《stba5328 (St. Ba)》之銘言: : 想請問一下 : 我想從x, y兩個元素數量相等list當中,刪除所有值為-9999的項, : 並且另一list同index的項目也要刪除,但因為list中大概有180萬筆, : -9999的聯集數量大概57萬筆,該如何加速以下的程序呢? : def get_index(a): : lst = [i for i, j in enumerate(a) if j == -9999] : return lst : indx = get_index(x) : indy = get_index(y) : indlst = list(set(indx) | set(indy)) : xlst = [j for i, j in enumerate(x) if i not in indx] : ylst = [j for i, j in enumerate(y) if i not in indy] 最高指導原則:各 list 中各個元素只看一次 因為你有那麼多資料, 當然是看越少次越好 所以只能用一個 for 迴圈, 就要把兩個串列走完 可以這樣想: ------------------- | x[0] | y[0] | ------------------- | x[1] | y[1] | ------------------- | x[2] | y[2] | ------------------- | x[3] | y[3] | . . . . . . 然後從上面往下走一次 如果 x[i] 與 y[i] 其中有一個是 -9999, 就捨去那一欄 把它寫成程式 BAD_VALUE = -9999 result_x = [] result_y = [] for xi, yi in zip(x, y): # Python 2 改用 izip if x_i == BAD_VALUE or y_i == BAD_VALUE: continue # 不要這行 result_x.append(xi) result_y.append(yi) 這是淺顯易懂的簡化 若想再加速(用純 Python 為前題), 最簡單的方法是改用 PyPy 如果無法這樣做, 那麼就要想辦法拿掉 Python 的 for 迴圈 用 list comprehension 是一個方式: result_rows = [ (xi, yi) for xi, yi in zip(x, y) if x_i != BAD_VALUE and y_i != BAD_VALUE ] 但這樣出來的就不是兩個 lists, 而是像上面那樣的二維表格 當然你可以再用一個 zip 轉置它: result_x, result_y = zip(result_rows) 但這樣就會 iterate 第二次了, 效能上就會有差 (注意這不見得會比前面用迴圈的方法慢!) 所以還是要看需求來選用 如果要再加速, 就得借用其他工具了 例如 numpy array 是一個方法 用 Cython 把這個 for 迴圈 transcompile 成 C 應該也是解 但這裡就不討論到那邊 -- 「我最想要的同伴嘛,首先是要笑口常開,其次是我們能永遠不會發生誤會。 如果這些都能辦到的話,嗯,如果他是世界上第一流的橋手,也還不錯。」 -- 班尼多‧加羅素,前義大利藍隊成員 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.122.14 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1446711425.A.0D4.html ※ 編輯: uranusjr (1.162.122.14), 11/05/2015 16:17:35

11/06 20:51, , 1F
感謝u大!但到最後分離x, y的步驟會顯示to many values
11/06 20:51, 1F

11/06 20:51, , 2F
to unpack 但 用numpy array 轉置後就完成了 感謝!
11/06 20:51, 2F
文章代碼(AID): #1MEn213K (Python)
討論串 (同標題文章)
文章代碼(AID): #1MEn213K (Python)