討論串[問題] 使用CUDA Share memory執行"點乘"比glo …
共 3 篇文章
首頁
上一頁
1
下一頁
尾頁
內容預覽:
我還是再提醒一次. 寫CUDA的時候一定要盡可能的想清楚. 每個block和每個thread該如何處理分配到的工作. 我希望你注意的地方有兩個. 第一個是我和你寫法不同的shared memory的點乘. 你的想法和我的想法有什麼區別?. 第二個是CUDA的計時方式. 如果善用CUDA的Event.
(還有3525個字)
內容預覽:
主要是你寫的 Matrix_Point_Multiplication_SM 有問題. 你用for loop的功能是為了什麼?. 能夠只執行一次的動作應該不需要重複執行好幾次吧. 我把 Matrix_Point_Multiplication_SM 改成如下. 呼叫的時候用. Matrix_Point_
(還有710個字)
內容預覽:
請問一下,. 我想使用Share memory來執行點乘,. 但我測出來, 竟然是使用global memory比較快,. 請問為什麼呢?是我的share memory寫錯了嗎. 是因為矩陣點乘的重覆率不高嗎(一點對一點乘,並沒有重複). 以下是我的kernel function. #include
(還有3414個字)
首頁
上一頁
1
下一頁
尾頁