Re: [心得] ComfyUI 7.0 RX 9070XT便攜包分享

看板PC_Shopping (個人電腦購買)作者 (TRF小兵)時間1月前 (2026/03/11 18:01), 1月前編輯推噓19(19015)
留言34則, 16人參與, 1月前最新討論串5/6 (看更多)
ComfyUI_Win_portable_RDNA4 TRFv0.2-Lite 200260311 https://drive.google.com/file/d/1KeyJg-cudGQ2G0QiThrRKGHDiSQcwEGX/view?usp=sharing 此為沒有任何基礎模型的便攜包 針對RDNA4 RX9070X優化的版本 架構環境 ComfyUI v0.16.4 Python version: 3.13.11 Pytorch version: 2.12.0a0+rocm7.12.0a20260218 triton_windows-3.6.0.post26 20260309 這次主要增加sage-attention triton自定義參數設定 https://drive.google.com/file/d/11PjKHXraivbEeJP-RbJjN0e7KXOJ9TjH/view?usp=sharing 這是修改過後的文件 已經放進去便攜包內 在西台灣的QQ群已經測試了一陣子 靈感來自於這裡 https://github.com/Dao-AILab/flash-attention/pull/2239 我參考上面文章的flash-attention調優算子 利用gemini針對RNDA架構 優化了sage-attention triton 並且可以使用環境變數加以調整 目前預設使用 set SAGEATTN_M=128 set SAGEATTN_N=16 set SAGEATTN_GM=16 set SAGEATTN_WAVE=4 set SAGEATTN_WARP=4 set SAGEATTN_NSTAGES=1 set SAGEATTN_CAUSAL_STAGE=3 參數說明 1. SAGEATTN_M (BLOCK_M) 定義:Query 分塊大小 (Query Block Size)。決定 GPU 一次處理多少列的 Query 矩陣 。 選項:64 (推薦), 128 (激進)。 影響: 越大 (128):理論上能減少讀取 K/V 的次數(節省頻寬),速度通常較快。 副作用:會佔用大量的 SRAM (LDS) 和 暫存器 (VGPR)。 2. SAGEATTN_N (BLOCK_N) 定義:Key/Value 分塊大小 (Key/Value Block Size)。決定 GPU 一次讀取多少列的 K/V 。 3. SAGEATTN_GM (GROUP_SIZE_M) 定義:L2 Cache 分組大小 (L2 Swizzling)。決定有多少個 Query Block 共用同一份 K/V 數據。 影響: 數值越高:K/V 讀取次數越少(省頻寬)。 代價:GPU 必須同時在 L2 Cache 里暫存 (M × GM) 這麼大塊的輸出結果 (Accumulator)。 4. SAGEATTN_WAVE (waves_per_eu) 定義:每個計算單元的波前數量 (Occupancy)。這是 AMD 特有的參數,控制一個 CU (Compute Unit) 同時跑幾個 Wave。 選項:0 (自動), 2 (保守), 4 (激進)。 影響: 越高 (4):能更好地隱藏記憶體延遲,跑分高。但若暫存器不夠,會導致核心崩潰或計算 錯誤。 建議值:2 (穩定) 或 0 (讓編譯器自己算)。 5. SAGEATTN_WARP (num_warps) 定義:核心並行度 (Warps per Block)。Triton 內部的參數,決定用多少個 Warp 來處 理一個 Block。 選項:2, 4, 8。 影響:必須跟 BLOCK_N 的大小成正比。 6. SAGEATTN_NSTAGES (num_stages) 定義:軟體流水線級數 (Software Pipelining)。決定 GPU 要「預先讀取」多少塊未來 的數據。 選項:1 (不預讀), 2 (預讀一塊) 7. SAGEATTN_CAUSAL_STAGE 定義:核心邏輯階段。這是 SageAttention 演算法內部的數學邏輯開關。 影響:這不是效能參數,而是正確性參數。 建議值:3 (固定值)。亂改會導致數學邏輯錯誤,畫面會變成雜訊。 總之使用優化過後sage-attention 跑圖速度會提昇20~30% 跑WAN2.2一步至少縮短5s 想要自訂參數請自行用記事本編輯修改Start.bat 補充一下 Mimalloc優化設定 32GB RAM:平衡配置 (Balance) set MIMALLOC_PURGE_DELAY=500 set MIMALLOC_LARGE_OS_PAGES=1 set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0 set MIMALLOC_RESET_DELAY=100 set MIMALLOC_SHOW_STATS=0 64GB RAM:效能優先 (Performance) set MIMALLOC_PURGE_DELAY=5000 set MIMALLOC_LARGE_OS_PAGES=1 set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0 set MIMALLOC_RESET_DELAY=500 set MIMALLOC_SHOW_STATS=0 128GB RAM:極限效能 (Extreme / Latency Sensitive) set MIMALLOC_PURGE_DELAY=-1 set MIMALLOC_LARGE_OS_PAGES=1 set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0 set MIMALLOC_RESET_DELAY=-1 set MIMALLOC_SHOW_STATS=0 由於我的環境記憶體有128G 預設是調到最高等級 一些跑圖數據 Z-image turbo https://i.imgur.com/4EW0f9z.png
1024x1024 6步 5.82s 4步 3.99s SD XL illustrious https://i.imgur.com/9k9n84q.png
1024x1024 20步 6.68s WAN 2.2 640x480 5s https://i.imgur.com/IUbxCjy.png
4步 59.51s SDXL工作流增加自動修臉跟手腳功能 https://i.imgur.com/ypWxNBB.png
目前triton-windows已經有AMD官方人員加入維護 https://github.com/triton-lang/triton-windows/issues/2 看起來AMD是認真的 此便攜包可以任意分享 本來就是我閒暇時間自己琢磨玩玩 我其實也不懂Python程式怎麼寫 反正有問題就問AI= = 或者爬文章或者跟別人討教 希望有人能接著發揚光大 甚至去Github社群交流 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.59.186 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1773223293.A.591.html

03/11 18:20, 1月前 , 1F
先推
03/11 18:20, 1F

03/11 18:45, 1月前 , 2F
感謝
03/11 18:45, 2F

03/11 20:12, 1月前 , 3F
只有79XTX跟4070TIS但還是推
03/11 20:12, 3F

03/11 20:41, 1月前 , 4F
好文推
03/11 20:41, 4F

03/11 21:44, 1月前 , 5F
謝謝
03/11 21:44, 5F

03/11 22:00, 1月前 , 6F
03/11 22:00, 6F

03/11 22:15, 1月前 , 7F
大大真的猛 辛苦了!
03/11 22:15, 7F

03/12 00:00, 1月前 , 8F
先推,有空再來研究一下,感謝分享
03/12 00:00, 8F

03/12 00:53, 1月前 , 9F
感謝分享,舊版是建議改參數還是把model移
03/12 00:53, 9F

03/12 00:53, 1月前 , 10F
植到新的資料夾過去比較穩?另外AMD的blog
03/12 00:53, 10F

03/12 00:55, 1月前 , 11F
上有簡易的在Ubuntu底下架ComfyUI的教學了
03/12 00:55, 11F
建議模型先丟過去測試 ※ 編輯: trfmk1 (125.229.59.186 臺灣), 03/12/2026 00:57:57

03/12 02:10, 1月前 , 12F
推分享,想請教I2V的工作流跟模型
03/12 02:10, 12F

03/12 02:12, 1月前 , 13F
是怎麼選的?我自己嘗試產出的影片
03/12 02:12, 13F

03/12 02:12, 1月前 , 14F
畫風都會劇變,而且邊緣很模糊
03/12 02:12, 14F

03/12 02:17, 1月前 , 15F
想問原po有沒有用過0221以後的版本,我
03/12 02:17, 15F

03/12 02:17, 1月前 , 16F
的應用用到卷積計算21後速度又下降了
03/12 02:17, 16F
建議先退回2/18版本 ※ 編輯: trfmk1 (125.229.59.186 臺灣), 03/12/2026 09:43:36

03/12 10:12, 1月前 , 17F
感謝分享 請問我有下載之前的包 是否直接
03/12 10:12, 17F

03/12 10:12, 1月前 , 18F
覆蓋就好?
03/12 10:12, 18F
建議模型、工作流搬過去測試沒問題再說 ※ 編輯: trfmk1 (39.12.137.126 臺灣), 03/12/2026 10:59:16

03/12 11:34, 1月前 , 19F
了解 謝謝
03/12 11:34, 19F

03/12 11:41, 1月前 , 20F
我自己的應用目前是停在0220
03/12 11:41, 20F

03/12 11:42, 1月前 , 21F
而且這幾個版本之後終於不用關AU的內顯
03/12 11:42, 21F

03/12 11:42, 1月前 , 22F
或設定環境變數了
03/12 11:42, 22F

03/12 12:34, 1月前 , 23F
轉移成功,感謝!一開始瀏覽器沒跟舊版一樣
03/12 12:34, 23F

03/12 12:34, 1月前 , 24F
自動跳出來還以為開到一半卡住了,自己拉新
03/12 12:34, 24F

03/12 12:34, 1月前 , 25F
頁面輸入IP就成功點亮,跑圖提速跟修臉有感
03/12 12:34, 25F

03/12 12:34, 1月前 , 26F
,修手反而很少動作,這可能是我自己下提示
03/12 12:34, 26F

03/12 12:34, 1月前 , 27F
詞的問題...
03/12 12:34, 27F

03/12 13:20, 1月前 , 28F
推推amd rocm加油
03/12 13:20, 28F

03/12 13:51, 1月前 , 29F
推!
03/12 13:51, 29F

03/12 14:40, 1月前 , 30F
WAN 2.2的I2V基本上只保證81 frame以內ok (
03/12 14:40, 30F

03/12 14:40, 1月前 , 31F
真人可以拚一下121f),超過之後影片常與pro
03/12 14:40, 31F

03/12 14:40, 1月前 , 32F
mpt脫節,畫質還會出現明顯劣化
03/12 14:40, 32F

03/15 17:01, 1月前 , 33F
wan22我的經驗是81幀做拼接最穩效率最好
03/15 17:01, 33F

03/16 00:49, 1月前 , 34F
推推,我小白還在研究怎麼搞
03/16 00:49, 34F
文章代碼(AID): #1fiJrzMH (PC_Shopping)
文章代碼(AID): #1fiJrzMH (PC_Shopping)