Re: [請益] 請問 CUDA 每個 block 可使用多少 shar …

看板VideoCard (顯卡板)作者 (Learning To Live)時間15年前 (2010/06/03 01:10), 編輯推噓4(4015)
留言19則, 2人參與, 最新討論串3/4 (看更多)
※ 引述《jk21234 ( 1569 11 /47)》之銘言: : ※ 引述《mself (mself)》之銘言: : : 就我瞭解,SM 跟 block 有對應,但好像不是 1 對 1, : : 數個 block 會一起在一個 SM 上輪流執行, : 所以,SM和Block在"某個時段內,獨佔的1:1執行" : 如果你覺得不容易理解,它還蠻接近一顆cpu執行多工的方式. : 切換也應該是context switch.有同樣的缺點就是切換再怎麼頻繁, : 對幾百MHZ的晶片來說,都是巨大的效能損失..... : (如果我沒記錯,cuda文件有描述context switch部分...) : 所以也不用擔心你在程式中使用不到16KB的shared memory. 來閒扯一下他背後的運作,就 GT200 系列來說 每個 SM 在 resource 允許的情況下,最多能同時保持 1,024 個 computing threads 且每次 SM 最多只允許抓取 8 個 blocks,且不能超過 resource limitation 每個 block 內會有許多許多 computing threads,在實際執行時,會動態切出 warps 每個 full warp 會有 32 個 computing threads,而 warp 是 SM 每次實際執行的單位 由於每個 SM 只有 8 個 SP(先不提 SFU),故需要以連續 4 個 cycles 來做 被排程(這個排程很接近RR,詳見 US Patent US2007/0214343A1)到之 warp 的 一道指令(通通都做同一道,可以把 warp 視為一個 SIMD group)。當這道指令做完 dispatch unit 會排下一個 warp 來執行(不一定是同一個),可以視為 fine-grain multithreading。(ATi 的作法比較接近 coarse-grain) 根據用 OpenCL 測試的結果,每個 SM 上,大概要同時保持 512 個 threads 才能達到最好的效能。而在 GPU 中,context switch 的 overhead 比起 OS 低很多~~ 因為 GPU 中利用非常龐大的 Register file 來 keep 所有 in-flight data,所以對 GPU 來說,context switch 只是切換一下用的 register set 就沒事了~~~ 回到正題,shared memory 如果需求的量超過,是沒辦法被執行的,只能等到在 SM 中 的工作都做完,resource release 了才行~~~ : : 視 register 用量,以及 thread 數上限而定 : : 假設現在是 8 個 block 在 1 個 SM 上輪流執行 : : 是不是每個 block 只能有 2 KB shared memory 呢? : : 還是說每個 block 都能用滿 16 KB,但不是正在執行的 block : : 的 shared memory (context) 會 switch 到 global memory : : 要執行時在 switch 回來呢? -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.161.118.189

06/03 01:37, , 1F
Block/SM內切換thread很快,不過我說的是比較上層的東西
06/03 01:37, 1F

06/03 01:37, , 2F
也就是同一個SM去切換不同的Block,這個應當沒那麼快...
06/03 01:37, 2F

06/03 01:39, , 3F
就我對它的了解,只要在resource允許情況下,看起來沒差…
06/03 01:39, 3F

06/03 01:40, , 4F
但是,block內之threads需要能sync,碰到需要sync的比較傷
06/03 01:40, 4F

06/03 01:42, , 5F
它文件有暗示,就是說同一張顯卡跑兩個GPGPU程式比較不好.
06/03 01:42, 5F

06/03 01:43, , 6F
除了sync問題之外,SM切換執行不同的blocyk可能沒那麼快
06/03 01:43, 6F

06/03 01:45, , 7F
跑不同kernel,似乎是scheduling的問題,但是我沒實際試過
06/03 01:45, 7F

06/03 01:45, , 8F
Fermi whitepaper 上有提到多個 kernel 時排程的改進~~
06/03 01:45, 8F

06/03 01:48, , 9F
fermi的sync應該是大有改進,否則也無法對應OO化的程式需求
06/03 01:48, 9F

06/03 01:49, , 10F
以前的硬體不適合multiprogram,也可能是sync的問題
06/03 01:49, 10F

06/03 01:50, , 11F
拿之前跑的數據算了一下,切block效能影響是有,但有限~~
06/03 01:50, 11F

06/03 01:50, , 12F
只要讓每個block保持>=64 threads,切換 block 對效能的
06/03 01:50, 12F

06/03 01:50, , 13F
不過切出多個block通常都是資源量擺不進,如果還塞的下就沒
06/03 01:50, 13F

06/03 01:50, , 14F
影響,大概只有10ns不到…
06/03 01:50, 14F

06/03 01:51, , 15F
必要去分出更多的block,效率上應該會差很多
06/03 01:51, 15F

06/03 01:57, , 16F
切block,我用OpenCL在GTX285上測,感覺效率影響不明顯:~~
06/03 01:57, 16F

06/03 01:58, , 17F
反而是要怎麼找到上百個threads在同一個SM上run比較麻煩
06/03 01:58, 17F

06/03 02:00, , 18F
不過如果block切太少,反而造成有SM idle這樣不更慘?:~~
06/03 02:00, 18F

06/03 02:10, , 19F
還沒有顯卡有100個SM以上.所以沒差...
06/03 02:10, 19F
文章代碼(AID): #1C1f2JQl (VideoCard)
文章代碼(AID): #1C1f2JQl (VideoCard)