Re: [心得] ComfyUI 7.0 RX 9070XT便攜包分享
看板PC_Shopping (個人電腦購買)作者trfmk1 (TRF小兵)時間1月前 (2026/03/11 18:01)推噓19(19推 0噓 15→)留言34則, 16人參與討論串5/6 (看更多)
ComfyUI_Win_portable_RDNA4 TRFv0.2-Lite 200260311
https://drive.google.com/file/d/1KeyJg-cudGQ2G0QiThrRKGHDiSQcwEGX/view?usp=sharing
此為沒有任何基礎模型的便攜包
針對RDNA4 RX9070X優化的版本
架構環境
ComfyUI v0.16.4
Python version: 3.13.11
Pytorch version: 2.12.0a0+rocm7.12.0a20260218
triton_windows-3.6.0.post26 20260309
這次主要增加sage-attention triton自定義參數設定
https://drive.google.com/file/d/11PjKHXraivbEeJP-RbJjN0e7KXOJ9TjH/view?usp=sharing
這是修改過後的文件
已經放進去便攜包內
在西台灣的QQ群已經測試了一陣子
靈感來自於這裡
https://github.com/Dao-AILab/flash-attention/pull/2239
我參考上面文章的flash-attention調優算子
利用gemini針對RNDA架構
優化了sage-attention triton
並且可以使用環境變數加以調整
目前預設使用
set SAGEATTN_M=128
set SAGEATTN_N=16
set SAGEATTN_GM=16
set SAGEATTN_WAVE=4
set SAGEATTN_WARP=4
set SAGEATTN_NSTAGES=1
set SAGEATTN_CAUSAL_STAGE=3
參數說明
1. SAGEATTN_M (BLOCK_M)
定義:Query 分塊大小 (Query Block Size)。決定 GPU 一次處理多少列的 Query 矩陣
。
選項:64 (推薦), 128 (激進)。
影響:
越大 (128):理論上能減少讀取 K/V 的次數(節省頻寬),速度通常較快。
副作用:會佔用大量的 SRAM (LDS) 和 暫存器 (VGPR)。
2. SAGEATTN_N (BLOCK_N)
定義:Key/Value 分塊大小 (Key/Value Block Size)。決定 GPU 一次讀取多少列的 K/V
。
3. SAGEATTN_GM (GROUP_SIZE_M)
定義:L2 Cache 分組大小 (L2 Swizzling)。決定有多少個 Query Block 共用同一份
K/V 數據。
影響:
數值越高:K/V 讀取次數越少(省頻寬)。
代價:GPU 必須同時在 L2 Cache 里暫存 (M × GM) 這麼大塊的輸出結果
(Accumulator)。
4. SAGEATTN_WAVE (waves_per_eu)
定義:每個計算單元的波前數量 (Occupancy)。這是 AMD 特有的參數,控制一個 CU
(Compute Unit) 同時跑幾個 Wave。
選項:0 (自動), 2 (保守), 4 (激進)。
影響:
越高 (4):能更好地隱藏記憶體延遲,跑分高。但若暫存器不夠,會導致核心崩潰或計算
錯誤。
建議值:2 (穩定) 或 0 (讓編譯器自己算)。
5. SAGEATTN_WARP (num_warps)
定義:核心並行度 (Warps per Block)。Triton 內部的參數,決定用多少個 Warp 來處
理一個 Block。
選項:2, 4, 8。
影響:必須跟 BLOCK_N 的大小成正比。
6. SAGEATTN_NSTAGES (num_stages)
定義:軟體流水線級數 (Software Pipelining)。決定 GPU 要「預先讀取」多少塊未來
的數據。
選項:1 (不預讀), 2 (預讀一塊)
7. SAGEATTN_CAUSAL_STAGE
定義:核心邏輯階段。這是 SageAttention 演算法內部的數學邏輯開關。
影響:這不是效能參數,而是正確性參數。
建議值:3 (固定值)。亂改會導致數學邏輯錯誤,畫面會變成雜訊。
總之使用優化過後sage-attention
跑圖速度會提昇20~30%
跑WAN2.2一步至少縮短5s
想要自訂參數請自行用記事本編輯修改Start.bat
補充一下
Mimalloc優化設定
32GB RAM:平衡配置 (Balance)
set MIMALLOC_PURGE_DELAY=500
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=100
set MIMALLOC_SHOW_STATS=0
64GB RAM:效能優先 (Performance)
set MIMALLOC_PURGE_DELAY=5000
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=500
set MIMALLOC_SHOW_STATS=0
128GB RAM:極限效能 (Extreme / Latency Sensitive)
set MIMALLOC_PURGE_DELAY=-1
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=-1
set MIMALLOC_SHOW_STATS=0
由於我的環境記憶體有128G
預設是調到最高等級
一些跑圖數據
Z-image turbo
https://i.imgur.com/4EW0f9z.png

1024x1024
6步 5.82s
4步 3.99s
SD XL illustrious
https://i.imgur.com/9k9n84q.png

1024x1024
20步 6.68s
WAN 2.2 640x480 5s
https://i.imgur.com/IUbxCjy.png

4步 59.51s
SDXL工作流增加自動修臉跟手腳功能
https://i.imgur.com/ypWxNBB.png

目前triton-windows已經有AMD官方人員加入維護
https://github.com/triton-lang/triton-windows/issues/2
看起來AMD是認真的
此便攜包可以任意分享
本來就是我閒暇時間自己琢磨玩玩
我其實也不懂Python程式怎麼寫
反正有問題就問AI= =
或者爬文章或者跟別人討教
希望有人能接著發揚光大
甚至去Github社群交流
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.59.186 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1773223293.A.591.html
推
03/11 18:20,
1月前
, 1F
03/11 18:20, 1F
推
03/11 18:45,
1月前
, 2F
03/11 18:45, 2F
推
03/11 20:12,
1月前
, 3F
03/11 20:12, 3F
推
03/11 20:41,
1月前
, 4F
03/11 20:41, 4F
推
03/11 21:44,
1月前
, 5F
03/11 21:44, 5F
推
03/11 22:00,
1月前
, 6F
03/11 22:00, 6F
推
03/11 22:15,
1月前
, 7F
03/11 22:15, 7F
推
03/12 00:00,
1月前
, 8F
03/12 00:00, 8F
推
03/12 00:53,
1月前
, 9F
03/12 00:53, 9F
→
03/12 00:53,
1月前
, 10F
03/12 00:53, 10F
→
03/12 00:55,
1月前
, 11F
03/12 00:55, 11F
建議模型先丟過去測試
※ 編輯: trfmk1 (125.229.59.186 臺灣), 03/12/2026 00:57:57
推
03/12 02:10,
1月前
, 12F
03/12 02:10, 12F
→
03/12 02:12,
1月前
, 13F
03/12 02:12, 13F
→
03/12 02:12,
1月前
, 14F
03/12 02:12, 14F
推
03/12 02:17,
1月前
, 15F
03/12 02:17, 15F
→
03/12 02:17,
1月前
, 16F
03/12 02:17, 16F
建議先退回2/18版本
※ 編輯: trfmk1 (125.229.59.186 臺灣), 03/12/2026 09:43:36
推
03/12 10:12,
1月前
, 17F
03/12 10:12, 17F
→
03/12 10:12,
1月前
, 18F
03/12 10:12, 18F
建議模型、工作流搬過去測試沒問題再說
※ 編輯: trfmk1 (39.12.137.126 臺灣), 03/12/2026 10:59:16
推
03/12 11:34,
1月前
, 19F
03/12 11:34, 19F
推
03/12 11:41,
1月前
, 20F
03/12 11:41, 20F
→
03/12 11:42,
1月前
, 21F
03/12 11:42, 21F
→
03/12 11:42,
1月前
, 22F
03/12 11:42, 22F
推
03/12 12:34,
1月前
, 23F
03/12 12:34, 23F
→
03/12 12:34,
1月前
, 24F
03/12 12:34, 24F
→
03/12 12:34,
1月前
, 25F
03/12 12:34, 25F
→
03/12 12:34,
1月前
, 26F
03/12 12:34, 26F
→
03/12 12:34,
1月前
, 27F
03/12 12:34, 27F
推
03/12 13:20,
1月前
, 28F
03/12 13:20, 28F
推
03/12 13:51,
1月前
, 29F
03/12 13:51, 29F
→
03/12 14:40,
1月前
, 30F
03/12 14:40, 30F
→
03/12 14:40,
1月前
, 31F
03/12 14:40, 31F
→
03/12 14:40,
1月前
, 32F
03/12 14:40, 32F
推
03/15 17:01,
1月前
, 33F
03/15 17:01, 33F
推
03/16 00:49,
1月前
, 34F
03/16 00:49, 34F
討論串 (同標題文章)
完整討論串 (本文為第 5 之 6 篇):
PC_Shopping 近期熱門文章
PTT數位生活區 即時熱門文章