[問題] numpy broadcasting加速
首先我有兩個2D矩陣
A: m x 128
B: n x 128
m, n大約10000左右
我其中有一部分運算會使用到
np.subtract(A[i, :], B) 此產生出n x 128的矩陣
而這個運算A的每個row都要做, 也就是做m次
最直觀就是使用for迴圈跑m次
但是因為太慢了所以想起來有個broadcasting可用
直接np.subtract(A, B[:, None])就好, 產生個3D tensor
但問題在於這個居然比for迴圈還要緩慢 而且是顯著慢很多
不知道這種運算有沒有更快速的解法
本來猜可以用vectorize
但是查doc發現"The implementation is essentially a for loop"這句話
所以可能也沒用? 我姑且試寫了一下目前是error 還沒搞熟這個XD
不知道有沒有人知道怎麼樣讓這個過程變快
大絕應該就是直接開multi-process吧 希望有更好的選擇@@
感謝收看
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.55.11
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1523548776.A.986.html
推
04/13 08:17,
7年前
, 1F
04/13 08:17, 1F
推
04/13 10:59,
7年前
, 2F
04/13 10:59, 2F
→
04/13 10:59,
7年前
, 3F
04/13 10:59, 3F
完整原文是這樣:
The vectorize function is provided primarily for convenience, not for
performance. The implementation is essentially a for loop.
→
04/13 11:00,
7年前
, 4F
04/13 11:00, 4F
→
04/13 11:00,
7年前
, 5F
04/13 11:00, 5F
那可能就視問題而定吧
我查stackoverflow上也有vectorize速度沒改善的討論
→
04/13 12:55,
7年前
, 6F
04/13 12:55, 6F
→
04/13 12:57,
7年前
, 7F
04/13 12:57, 7F
→
04/13 13:04,
7年前
, 8F
04/13 13:04, 8F
了解
這種overhead加上去可能也佔不到便宜
我看有篇討論是說在大矩陣的運算上
中間運算的部分會重複去蓋掉cache中的值所以反而會比較慢
然後我的for loop是用掉一次subtract後這輪的減數就不會再用到了所以就沒這個問題
所以我猜是他雖然有做優化但是因為彼此蓋掉cache的關係反而會降低速度
只是我猜啦... 我沒測試小圖會不會就可以比for loop快就是了
※ 編輯: goldflower (140.113.215.35), 04/13/2018 17:29:07
Python 近期熱門文章
PTT數位生活區 即時熱門文章