Re: [請益] 請問 CUDA 每個 block 可使用多少 shar …

看板VideoCard (顯卡板)作者HsiaoCC (Learning To Live)時間16年前 (2010/06/03 01:10)推噓4(4推 0噓 15→)

留言19則, 2人參與討論串3/4 (看更多)

※ 引述《jk21234 ( 1569 11 /47)》之銘言： : ※ 引述《mself (mself)》之銘言： : : 就我瞭解，SM 跟 block 有對應，但好像不是 1 對 1， : : 數個 block 會一起在一個 SM 上輪流執行， : 所以,SM和Block在"某個時段內,獨佔的1:1執行" : 如果你覺得不容易理解,它還蠻接近一顆cpu執行多工的方式. : 切換也應該是context switch.有同樣的缺點就是切換再怎麼頻繁, : 對幾百MHZ的晶片來說,都是巨大的效能損失..... : (如果我沒記錯,cuda文件有描述context switch部分...) : 所以也不用擔心你在程式中使用不到16KB的shared memory. 來閒扯一下他背後的運作，就 GT200 系列來說每個 SM 在 resource 允許的情況下，最多能同時保持 1,024 個 computing threads 且每次 SM 最多只允許抓取 8 個 blocks，且不能超過 resource limitation 每個 block 內會有許多許多 computing threads，在實際執行時，會動態切出 warps 每個 full warp 會有 32 個 computing threads，而 warp 是 SM 每次實際執行的單位由於每個 SM 只有 8 個 SP（先不提 SFU），故需要以連續 4 個 cycles 來做被排程（這個排程很接近RR，詳見 US Patent US2007/0214343A1）到之 warp 的一道指令（通通都做同一道，可以把 warp 視為一個 SIMD group）。當這道指令做完 dispatch unit 會排下一個 warp 來執行（不一定是同一個），可以視為 fine-grain multithreading。（ATi 的作法比較接近 coarse-grain）根據用 OpenCL 測試的結果，每個 SM 上，大概要同時保持 512 個 threads 才能達到最好的效能。而在 GPU 中，context switch 的 overhead 比起 OS 低很多~~ 因為 GPU 中利用非常龐大的 Register file 來 keep 所有 in-flight data，所以對 GPU 來說，context switch 只是切換一下用的 register set 就沒事了~~~ 回到正題，shared memory 如果需求的量超過，是沒辦法被執行的，只能等到在 SM 中的工作都做完，resource release 了才行~~~ : : 視 register 用量，以及 thread 數上限而定 : : 假設現在是 8 個 block 在 1 個 SM 上輪流執行 : : 是不是每個 block 只能有 2 KB shared memory 呢？ : : 還是說每個 block 都能用滿 16 KB，但不是正在執行的 block : : 的 shared memory (context) 會 switch 到 global memory : : 要執行時在 switch 回來呢？ -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.161.118.189

推

jk21234

06/03 01:37, , 1^F

06/03 01:37, 1^F

→

jk21234

06/03 01:37, , 2^F

06/03 01:37, 2^F

→

HsiaoCC

06/03 01:39, , 3^F

06/03 01:39, 3^F