討論串[問題] CUDA 觀念及 矩陣相乘程式問題
共 6 篇文章
內容預覽:
設計就是如此,. 可以想像成3維陣列 [][][]. 不過平常用1個grid就夠了,有需要才需要增加grid. SIMT 就是你寫了一段code,所有thread都會照著做. 而threadIdx.x ...... 你可以理解成增加一些限制,或是讓特定thread做其它的事. EX:. {. int
(還有307個字)
內容預覽:
你的需求應該是利用. A) CUDA 3.0- (應該是沒記錯). 1. cudaMemcpy2DAsync(). 2. do something on CPU to waiting that. 3. cudaThreadSynchronize();. B) 既然你提到 Stream. 利用 Str
(還有282個字)
內容預覽:
餐廳一直只有一個阿. gridDim 是指定一個 grid 有幾個 block. blockDim 是指定一個 block 有幾個 thread對 就是空轉不確定真的用了 const 是什麼效果我是從來都沒用過拉 @@"嗯 我想我有點說錯了. 在 cpu 端的函數應該都是一步一步執行的. 如 cud
(還有255個字)
內容預覽:
看不太懂 那為何要很多家餐廳(grid)?. 所以上面2個程式效果會一樣?. 只是用for寫 如果有一個thread執行C[i] = A[i] + B[i]比較慢. 全部thread都要等最慢那個 而. int i = threadIdx.x. C[i] = A[i] + B[i]. 這種的不用?.
(還有430個字)
內容預覽:
想像一個 thread 是一個人. 一個 block 就是一個家庭 許多人組成一個家庭. 你開一間餐廳(grid) 一次一定是進來一個家庭吃飯. 一張桌子最多就擺 512 張椅子 但是如果一次來一萬個家庭. 桌子不夠的話 排不進來的家庭就會在外面等別桌吃完再進來不用改 const可以寫乘法 可以用
(還有332個字)