討論串[問題] CUDA 觀念及 矩陣相乘程式問題
共 6 篇文章
首頁
上一頁
1
2
下一頁
尾頁

推噓1(1推 0噓 3→)留言4則,0人參與, 最新作者a5480277 (tk)時間13年前 (2012/07/27 12:25), 編輯資訊
0
0
0
內容預覽:
設計就是如此,. 可以想像成3維陣列 [][][]. 不過平常用1個grid就夠了,有需要才需要增加grid. SIMT 就是你寫了一段code,所有thread都會照著做. 而threadIdx.x ...... 你可以理解成增加一些限制,或是讓特定thread做其它的事. EX:. {. int
(還有307個字)

推噓2(2推 0噓 0→)留言2則,0人參與, 最新作者LouisXIV (一個人寂寞 兩個人麻煩)時間13年前 (2012/07/26 16:48), 編輯資訊
0
0
0
內容預覽:
你的需求應該是利用. A) CUDA 3.0- (應該是沒記錯). 1. cudaMemcpy2DAsync(). 2. do something on CPU to waiting that. 3. cudaThreadSynchronize();. B) 既然你提到 Stream. 利用 Str
(還有282個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者bill42362 (酒池肉林夜夜生科)時間13年前 (2012/07/26 15:31), 編輯資訊
0
0
0
內容預覽:
餐廳一直只有一個阿. gridDim 是指定一個 grid 有幾個 block. blockDim 是指定一個 block 有幾個 thread對 就是空轉不確定真的用了 const 是什麼效果我是從來都沒用過拉 @@"嗯 我想我有點說錯了. 在 cpu 端的函數應該都是一步一步執行的. 如 cud
(還有255個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者ofd168 (大色狼來襲)時間13年前 (2012/07/26 12:11), 編輯資訊
0
0
0
內容預覽:
看不太懂 那為何要很多家餐廳(grid)?. 所以上面2個程式效果會一樣?. 只是用for寫 如果有一個thread執行C[i] = A[i] + B[i]比較慢. 全部thread都要等最慢那個 而. int i = threadIdx.x. C[i] = A[i] + B[i]. 這種的不用?.
(還有430個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者bill42362 (酒池肉林夜夜生科)時間13年前 (2012/07/25 21:30), 編輯資訊
0
0
0
內容預覽:
想像一個 thread 是一個人. 一個 block 就是一個家庭 許多人組成一個家庭. 你開一間餐廳(grid) 一次一定是進來一個家庭吃飯. 一張桌子最多就擺 512 張椅子 但是如果一次來一萬個家庭. 桌子不夠的話 排不進來的家庭就會在外面等別桌吃完再進來不用改 const可以寫乘法 可以用
(還有332個字)
首頁
上一頁
1
2
下一頁
尾頁