Re: [問題] 刪除大量數據的速度問題

看板Python作者uranusjr (←這人是超級笨蛋)時間10年前 (2015/11/05 16:17)推噓1(1推 0噓 1→)

留言2則, 1人參與討論串2/2 (看更多)

※ 引述《stba5328 (St. Ba)》之銘言： : 想請問一下 : 我想從x, y兩個元素數量相等list當中，刪除所有值為-9999的項， : 並且另一list同index的項目也要刪除，但因為list中大概有180萬筆， : -9999的聯集數量大概57萬筆，該如何加速以下的程序呢？ : def get_index(a): : lst = [i for i, j in enumerate(a) if j == -9999] : return lst : indx = get_index(x) : indy = get_index(y) : indlst = list(set(indx) | set(indy)) : xlst = [j for i, j in enumerate(x) if i not in indx] : ylst = [j for i, j in enumerate(y) if i not in indy] 最高指導原則：各 list 中各個元素只看一次因為你有那麼多資料, 當然是看越少次越好所以只能用一個 for 迴圈, 就要把兩個串列走完可以這樣想: ------------------- | x[0] | y[0] | ------------------- | x[1] | y[1] | ------------------- | x[2] | y[2] | ------------------- | x[3] | y[3] | . . . . . . 然後從上面往下走一次如果 x[i] 與 y[i] 其中有一個是 -9999, 就捨去那一欄把它寫成程式 BAD_VALUE = -9999 result_x = [] result_y = [] for xi, yi in zip(x, y): # Python 2 改用 izip if x_i == BAD_VALUE or y_i == BAD_VALUE: continue # 不要這行 result_x.append(xi) result_y.append(yi) 這是淺顯易懂的簡化若想再加速（用純 Python 為前題）, 最簡單的方法是改用 PyPy 如果無法這樣做, 那麼就要想辦法拿掉 Python 的 for 迴圈用 list comprehension 是一個方式: result_rows = [ (xi, yi) for xi, yi in zip(x, y) if x_i != BAD_VALUE and y_i != BAD_VALUE ] 但這樣出來的就不是兩個 lists, 而是像上面那樣的二維表格當然你可以再用一個 zip 轉置它: result_x, result_y = zip(result_rows) 但這樣就會 iterate 第二次了, 效能上就會有差（注意這不見得會比前面用迴圈的方法慢！）所以還是要看需求來選用如果要再加速, 就得借用其他工具了例如 numpy array 是一個方法用 Cython 把這個 for 迴圈 transcompile 成 C 應該也是解但這裡就不討論到那邊 -- 「我最想要的同伴嘛，首先是要笑口常開，其次是我們能永遠不會發生誤會。如果這些都能辦到的話，嗯，如果他是世界上第一流的橋手，也還不錯。」 -- 班尼多‧加羅素，前義大利藍隊成員 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.122.14 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1446711425.A.0D4.html ※ 編輯: uranusjr (1.162.122.14), 11/05/2015 16:17:35