[請益] 跑llama 顯卡選擇

看板PC_Shopping (個人電腦購買)作者 (LCC)時間4小時前 (2024/10/13 10:50), 3小時前編輯推噓8(8023)
留言31則, 8人參與, 39分鐘前最新討論串1/1
因為最近有再跑llama sakura翻譯 目前都是用日常用機的7900XTX來跑 想要多買一張卡放在另一台電腦跑 目前使用的模型是 sakura-14b-qwen2beta-v0.9.2-iq4xs 7900XTX速度是63 t/s https://i.imgur.com/xKmQ5N3.png
目前在2張卡中選擇 4060ti 16G 7800XT 16G 以AI泛用性來講可能是N卡 但是目前來看ROCM的版本速度也不輸N卡 以跑llama的情況下是否7800XT略勝一籌? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.75.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1728787854.A.000.html

10/13 10:54, 4小時前 , 1F
A6000 ads不用謝我
10/13 10:54, 1F

10/13 11:06, 4小時前 , 2F
建議試試看用 ollama + ainiee 來翻
10/13 11:06, 2F

10/13 11:06, 4小時前 , 3F
譯, 不要用 sakurallm 自己的 back
10/13 11:06, 3F

10/13 11:06, 4小時前 , 4F
end。
10/13 11:06, 4F

10/13 11:06, 4小時前 , 5F
如果是 llama.cpp 的話記得把 promp
10/13 11:06, 5F

10/13 11:06, 4小時前 , 6F
t_cache 打開,不用每次都重跑 syst
10/13 11:06, 6F

10/13 11:06, 4小時前 , 7F
em prompt。
10/13 11:06, 7F

10/13 11:06, 4小時前 , 8F
另外 inference 完全是 memory boun
10/13 11:06, 8F

10/13 11:06, 4小時前 , 9F
d,可以直接按照 vram bandwidth 來
10/13 11:06, 9F

10/13 11:06, 4小時前 , 10F
選卡即可,速度基本上就是 "模型大
10/13 11:06, 10F

10/13 11:06, 4小時前 , 11F
小/頻寬" = n token/s。
10/13 11:06, 11F
所以跑llama只跟頻寬有關? 與核心算力沒關?

10/13 11:08, 4小時前 , 12F
啊對了 sakurallm 14b 出 v1.0 的模
10/13 11:08, 12F

10/13 11:08, 4小時前 , 13F
型了
10/13 11:08, 13F
※ 編輯: qazwsd147 (122.116.75.164 臺灣), 10/13/2024 11:20:25

10/13 11:26, 3小時前 , 14F
AI應用 瓶頸都在VRAM 吞吐跟不上運算
10/13 11:26, 14F

10/13 11:27, 3小時前 , 15F
輸入的部分 也就是 prompt eval 和
10/13 11:27, 15F

10/13 11:27, 3小時前 , 16F
算力有關 而生成的部分 token gener
10/13 11:27, 16F

10/13 11:27, 3小時前 , 17F
ation 則和 memory bandwidth 有關
10/13 11:27, 17F

10/13 11:27, 3小時前 , 18F
主因是現在顯卡的算力遠大於頻寬 通
10/13 11:27, 18F

10/13 11:27, 3小時前 , 19F
常瓶頸都是卡在 token generation
10/13 11:27, 19F

10/13 11:31, 3小時前 , 20F
現在出的很多加速手段底層原理都有
10/13 11:31, 20F

10/13 11:31, 3小時前 , 21F
用到 recompute 就是寧願重新計算也
10/13 11:31, 21F

10/13 11:31, 3小時前 , 22F
要省 vram 傳輸量 藉此來提高速度
10/13 11:31, 22F
所以頻寬來講 7800xt 624.1gb/s > 4060ti 288gb/s 所以上7800XT比較好 ※ 編輯: qazwsd147 (122.116.75.164 臺灣), 10/13/2024 11:40:53

10/13 11:57, 3小時前 , 23F
長見識
10/13 11:57, 23F

10/13 12:21, 3小時前 , 24F
4張V100
10/13 12:21, 24F

10/13 12:30, 2小時前 , 25F
請問rocm是指6.2最新那版?
10/13 12:30, 25F

10/13 14:16, 1小時前 , 26F
至少挑Qwen2.5或llama3.1之後比較聰明
10/13 14:16, 26F

10/13 14:20, 1小時前 , 27F
之前的必須進行一番提示工程才達能用
10/13 14:20, 27F

10/13 14:22, 1小時前 , 28F
借串問一下UALink有下文嗎?
10/13 14:22, 28F

10/13 14:44, 40分鐘前 , 29F
14b 用 16G VRAM 真的可以跑嗎?
10/13 14:44, 29F

10/13 14:45, 39分鐘前 , 30F
印象中不見得就是 1:1, 可能要實驗...
10/13 14:45, 30F

10/13 14:45, 39分鐘前 , 31F
7900XTX 是 24G VRAM...
10/13 14:45, 31F
文章代碼(AID): #1d2pME00 (PC_Shopping)
文章代碼(AID): #1d2pME00 (PC_Shopping)