Re: [問題] 應用迴圈於資料處理的效率

看板R_Language作者 (拒看低質媒體)時間10年前 (2015/08/04 22:26), 10年前編輯推噓0(003)
留言3則, 2人參與, 最新討論串3/5 (看更多)
: 因此我的問題如下: : : (1) R 的迴圈為何可以慢成這樣? 我知道有研究過底層的高手理解來龍去脈,但對於 : 新手而言,有沒有什麼簡單的說法可以 give some insight? : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.14.10 : ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1438686610.A.4DE.html : → Wush978: (1) R對記憶體的使用上比較沒效率,所以用for寫的演算法 08/04 19:52 : → Wush978: 很容易寫出沒有重複利用記憶體的寫法,導致記憶體管理拖 08/04 19:53 : → Wush978: 累效能 08/04 19:53 : → celestialgod: 我看到的是要做很多直譯動作而浪費掉時間~~~ 08/04 19:56 : → celestialgod: 簡單說明就是有很多不必要的動作在迴圈中被使用 08/04 19:57 : → celestialgod: 出處:http://tinyurl.com/a7l7zyb 08/04 19:58 我覺得這邊有很多地方可以討論。 首先,我覺得大部分的狀況,直譯帶來的overhead是可以忍受的: 根據出處的例子,一個1e5的迴圈跑0.37秒: 在我的電腦,1e7大概跑4 ~ 5秒左右。 ``` system.time({ I = 0 while (I < 1e7) { 10 I = I + 1 } }) ``` 在一般的狀況下,這樣的overhead應該是可接受的。 透過compiler套件,也可以簡單改善直譯帶來的overhead ps. 直譯的意思是,把上述的R 程式碼,轉換成CPU的操作指令。 在C 等編譯式語言,程式碼會直接轉換成CPU 的操作指令後才能執行。 R 、Python、PHP等直譯式語言,則是在使用者按下Enter之後才轉換 程式碼成CPU 的操作指令,這樣的動作會導致執行的效能比較慢。 而牽涉到記憶體操作的迴圈,如: ``` x <- c() system.time({ for(i in 1:1e5) { x <- append(x, length(x)) } }) ``` 才1e5次就要12秒,而且慢的幅度是以平方的規模成長,這類的效應很容易讓你的執行 時間在迴圈次數不大的狀況下成長到數天或數星期。 最後給一個也是和記憶體相關的範例: ``` mat <- matrix(1, 100, 100) tracemem(mat) system.time({ for(i in 1:1e2) { for(j in 1:1e2) { mat[i,j] <- i + j } } }) system.time({ for(i in 1:1e2) { for(j in 1:1e2) { tmp <- mat tmp[i,j] <- i + j } } }) ``` 這段程式碼是一個顯示copy on write導致R 複製矩陣的範例。 一開始tracemem函數是讓R 告訴你說:「R 正在複製mat的內容」 第一個system.time有做write in place, 所以mat沒有被複製,執行時間只有0.01秒 而第二個system.time在對tmp做操作時會觸發copy on write,所以執行時間變成0.65秒 而這個變慢的速度和mat有關。 所以你可以想像當你處理很大的資料時,一些暫存物件 會很顯著拖慢你的迴圈! 就我個人的經驗, 通常會讓你的迴圈跑到分鐘以上,都是因為你的函數有牽涉到大量記憶體的存取。 另一個我這裡沒說明的,是演算法的複雜度。有時候我們會寫出複雜度為O(n^2)以上的 R 函數而不自知,這除了去學一點演算法,以及了解R 如何配置記憶體之外,也沒有帝 王之路了。 最後,我覺得celestialgod大大貼的連結,下面有人給的文章寫的很好: R Help Desk How Can I Avoid This Loop or Make It Faster? by Uwe Ligges and John Fox <https://www.r-project.org/doc/Rnews/Rnews_2008-1.pdf> 這兩位作者都是R 界的大大,他們給出的看法也非常非常的中肯。 文中對於Loop的看法是: Loops! > Many comments about R state that using loops is a > particularly bad idea. This is not necessarily true. In > certain cases, it is difficult to write vectorized code, > or vectorized code may consume a huge amount of > memory. Also note that it is in many instances much > better to solve a problem with a loop than to use re- > cursive function calls. 裡面許多對撰寫Loop的建議都是很棒的。 細節就麻煩你去讀原文了。 ps. 如果你有興趣的話,很歡迎翻譯或節錄重點,貼回來本版。 R 版非常歡迎版友能在這裡成長的同時,回饋你的經驗給R 版。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.60.59 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1438698401.A.A59.html ※ 編輯: Wush978 (1.34.60.59), 08/04/2015 22:27:37 ※ 編輯: Wush978 (1.34.60.59), 08/04/2015 22:28:14

08/04 22:35, , 1F
loops那篇在很多R速度的討論可以看到
08/04 22:35, 1F

08/04 22:35, , 2F
那篇的建議非常實用!
08/04 22:35, 2F

08/05 09:02, , 3F
實用推 以前避寫loop 後來發現耗用大量記憶體真的沒較快
08/05 09:02, 3F
文章代碼(AID): #1LmCkXfP (R_Language)
文章代碼(AID): #1LmCkXfP (R_Language)