[請益] 跑llama 顯卡選擇

看板PC_Shopping (個人電腦購買)作者 (LCC)時間1年前 (2024/10/13 10:50), 1年前編輯推噓21(21042)
留言63則, 21人參與, 1年前最新討論串1/1
因為最近有再跑llama sakura翻譯 目前都是用日常用機的7900XTX來跑 想要多買一張卡放在另一台電腦跑 目前使用的模型是 sakura-14b-qwen2beta-v0.9.2-iq4xs 7900XTX速度是63 t/s https://i.imgur.com/xKmQ5N3.png
目前在2張卡中選擇 4060ti 16G 7800XT 16G 以AI泛用性來講可能是N卡 但是目前來看ROCM的版本速度也不輸N卡 以跑llama的情況下是否7800XT略勝一籌? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.75.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1728787854.A.000.html

10/13 10:54, 1年前 , 1F
A6000 ads不用謝我
10/13 10:54, 1F

10/13 11:06, 1年前 , 2F
建議試試看用 ollama + ainiee 來翻
10/13 11:06, 2F

10/13 11:06, 1年前 , 3F
譯, 不要用 sakurallm 自己的 back
10/13 11:06, 3F

10/13 11:06, 1年前 , 4F
end。
10/13 11:06, 4F

10/13 11:06, 1年前 , 5F
如果是 llama.cpp 的話記得把 promp
10/13 11:06, 5F

10/13 11:06, 1年前 , 6F
t_cache 打開,不用每次都重跑 syst
10/13 11:06, 6F

10/13 11:06, 1年前 , 7F
em prompt。
10/13 11:06, 7F

10/13 11:06, 1年前 , 8F
另外 inference 完全是 memory boun
10/13 11:06, 8F

10/13 11:06, 1年前 , 9F
d,可以直接按照 vram bandwidth 來
10/13 11:06, 9F

10/13 11:06, 1年前 , 10F
選卡即可,速度基本上就是 "模型大
10/13 11:06, 10F

10/13 11:06, 1年前 , 11F
小/頻寬" = n token/s。
10/13 11:06, 11F
所以跑llama只跟頻寬有關? 與核心算力沒關?

10/13 11:08, 1年前 , 12F
啊對了 sakurallm 14b 出 v1.0 的模
10/13 11:08, 12F

10/13 11:08, 1年前 , 13F
型了
10/13 11:08, 13F
※ 編輯: qazwsd147 (122.116.75.164 臺灣), 10/13/2024 11:20:25

10/13 11:26, 1年前 , 14F
AI應用 瓶頸都在VRAM 吞吐跟不上運算
10/13 11:26, 14F

10/13 11:27, 1年前 , 15F
輸入的部分 也就是 prompt eval 和
10/13 11:27, 15F

10/13 11:27, 1年前 , 16F
算力有關 而生成的部分 token gener
10/13 11:27, 16F

10/13 11:27, 1年前 , 17F
ation 則和 memory bandwidth 有關
10/13 11:27, 17F

10/13 11:27, 1年前 , 18F
主因是現在顯卡的算力遠大於頻寬 通
10/13 11:27, 18F

10/13 11:27, 1年前 , 19F
常瓶頸都是卡在 token generation
10/13 11:27, 19F

10/13 11:31, 1年前 , 20F
現在出的很多加速手段底層原理都有
10/13 11:31, 20F

10/13 11:31, 1年前 , 21F
用到 recompute 就是寧願重新計算也
10/13 11:31, 21F

10/13 11:31, 1年前 , 22F
要省 vram 傳輸量 藉此來提高速度
10/13 11:31, 22F
所以頻寬來講 7800xt 624.1gb/s > 4060ti 288gb/s 所以上7800XT比較好 ※ 編輯: qazwsd147 (122.116.75.164 臺灣), 10/13/2024 11:40:53

10/13 11:57, 1年前 , 23F
長見識
10/13 11:57, 23F

10/13 12:21, 1年前 , 24F
4張V100
10/13 12:21, 24F

10/13 12:30, 1年前 , 25F
請問rocm是指6.2最新那版?
10/13 12:30, 25F

10/13 14:16, 1年前 , 26F
至少挑Qwen2.5或llama3.1之後比較聰明
10/13 14:16, 26F

10/13 14:20, 1年前 , 27F
之前的必須進行一番提示工程才達能用
10/13 14:20, 27F

10/13 14:22, 1年前 , 28F
借串問一下UALink有下文嗎?
10/13 14:22, 28F

10/13 14:44, 1年前 , 29F
14b 用 16G VRAM 真的可以跑嗎?
10/13 14:44, 29F

10/13 14:45, 1年前 , 30F
印象中不見得就是 1:1, 可能要實驗...
10/13 14:45, 30F

10/13 14:45, 1年前 , 31F
7900XTX 是 24G VRAM...
10/13 14:45, 31F

10/13 14:55, 1年前 , 32F
買兩張3090 nvlink
10/13 14:55, 32F

10/13 15:07, 1年前 , 33F
sakurallm 14b 只有釋出 iq4 的量化
10/13 15:07, 33F

10/13 15:07, 1年前 , 34F
版本 大概要 9G 左右的 vram
10/13 15:07, 34F

10/13 15:44, 1年前 , 35F
跑半精度吧
10/13 15:44, 35F

10/13 15:45, 1年前 , 36F
這麼狠
10/13 15:45, 36F

10/13 15:54, 1年前 , 37F
4070 TiS 呢?
10/13 15:54, 37F

10/13 16:59, 1年前 , 38F
這個東西翻譯出來的效果怎麼樣?
10/13 16:59, 38F

10/13 17:17, 1年前 , 39F
我自己使用下來效果感覺滿好的 至少
10/13 17:17, 39F

10/13 17:17, 1年前 , 40F
已經是能用的地步了 但人名還是不可
10/13 17:17, 40F

10/13 17:17, 1年前 , 41F
避免的會有不同翻譯的問題
10/13 17:17, 41F

10/13 17:32, 1年前 , 42F
不就主要看VRAM有多大,再來就看有沒有會
10/13 17:32, 42F

10/13 17:33, 1年前 , 43F
使用到CUDA,這兩個條件來決定
10/13 17:33, 43F

10/13 19:07, 1年前 , 44F
有預算直上二手3090
10/13 19:07, 44F

10/13 22:47, 1年前 , 45F
看過sakura翻譯小說,優點是輕小說特化所
10/13 22:47, 45F

10/13 22:47, 1年前 , 46F
以相關奇幻異世界字彙甚至比出版社菜鳥翻
10/13 22:47, 46F

10/13 22:47, 1年前 , 47F
的好,文筆流暢,問題是人名如果是假名拼
10/13 22:47, 47F

10/13 22:47, 1年前 , 48F
音可能會一段文章翻成三個不同人名,男角
10/13 22:47, 48F

10/13 22:47, 1年前 , 49F
稱呼常常用她,然後句子省略的主詞人名會
10/13 22:47, 49F

10/13 22:47, 1年前 , 50F
亂猜
10/13 22:47, 50F

10/14 00:28, 1年前 , 51F
買NV的還有機會用QLoRA微調
10/14 00:28, 51F

10/14 00:58, 1年前 , 52F
N卡裝VLLM走非同步request可以很快
10/14 00:58, 52F

10/14 00:58, 1年前 , 53F
不過A卡沒試過,也許也有效果
10/14 00:58, 53F

10/14 01:50, 1年前 , 54F
ROCm如果速度不錯就上78XT阿 支持一下AMD
10/14 01:50, 54F

10/14 02:35, 1年前 , 55F
有需要用到Nsight?
10/14 02:35, 55F

10/14 16:09, 1年前 , 56F
人名可以辭典化了,也能根據詞頻去過濾,
10/14 16:09, 56F

10/14 16:09, 1年前 , 57F
方便快速抓取定義
10/14 16:09, 57F

10/14 21:53, 1年前 , 58F

10/14 21:53, 1年前 , 59F
a-14B-Qwen2.5-v1.0-GGUF
10/14 21:53, 59F

10/14 21:53, 1年前 , 60F
SakuraLLM/Sakura-14B-Qwen2.5-v1.0-GGUF
10/14 21:53, 60F

10/14 21:54, 1年前 , 61F
最新是這個吧,看起來有支援字典功能
10/14 21:54, 61F

10/15 01:37, 1年前 , 62F
14b我是4070ti14g,128gi713700k順跑
10/15 01:37, 62F

10/15 08:21, 1年前 , 63F
咦 4070TI有出14G的規格?
10/15 08:21, 63F
文章代碼(AID): #1d2pME00 (PC_Shopping)
文章代碼(AID): #1d2pME00 (PC_Shopping)