[閒聊] LLM 推理用機器

看板PC_Shopping (個人電腦購買)作者 (yeh)時間1周前 (2024/06/16 15:43), 1周前編輯推噓18(19168)
留言88則, 24人參與, 1周前最新討論串1/1
由於最近 LLM 發展越來越快,剛好自己也有一些 LLM 的需求。 但又不想要使用 OpenAI 或是其他供應商的服務。 從前幾個月開始就有想要自己弄個機器來架設服務的想法。 最近開始也對高參數的模型越來越好奇,但由於大容量 VRAM 的 GPU 實在是買不起,所以想說是不是轉用 CPU 來玩玩看。 我看了很多技術分析和 Benchmark,基本上都說 LLM 的 inference 目前是 memory bound,也就是 memory bandwidth 是瓶頸。 所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。 我看了下 threadripper 和 xeon 的幾個型號,其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800,換算起來頻寬大概是主流 PC 的 3-4 倍。 但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$ 為了要用這顆 CPU,整個成本算起來根本不比買多張卡來得划算多少。 我就在想是不是還是 GPU 多卡買一買就好了,反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。 唯一想到的用途就是同時開很多個 instance 來服務不同的需求。 (上上個月還有海淘一張 2080Ti 22G 來試試看,結果用沒幾天就壞了... 還好能退) 最近也有在看 AMD 的 Strix Point,這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能,但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。 選 Strix Point 就等同於犧牲了當初追求的效能,但優點是低功耗而且便宜。 是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。 相比多卡的方案用 iGPU 的好處就是低功耗,但效能實在是天差地別。 有人也有類似的煩惱嗎? 我自己的話預算希望是 100k 以內,最多捏到 150k。 ----- Sent from JPTT on my Xiaomi 23127PN0CG. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.35.51 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1718523808.A.521.html

06/16 16:05, 1周前 , 1F
何不先用AWS測試你需要什麼硬體規格再來
06/16 16:05, 1F
確實好像可以先去雲端平台租高階 CPU 來玩玩看,這我倒是之前沒想過。 之前對於雲端平台就只想到租 GPU 而已。

06/16 16:05, 1周前 , 2F
買?
06/16 16:05, 2F

06/16 16:07, 1周前 , 3F
用mac會不會比較好?
06/16 16:07, 3F
Mac 的話剛看了下 Mac Studio 好像也不是不行,但稍微爆預算。

06/16 16:14, 1周前 , 4F
4090 屌打各式CPU
06/16 16:14, 4F

06/16 16:30, 1周前 , 5F
用cpu跑太慢了 用gpu的話沒有40g以上的ram
06/16 16:30, 5F

06/16 16:30, 1周前 , 6F
根本塞不進LLM 有自己訓練的需求不如去租s
06/16 16:30, 6F

06/16 16:30, 1周前 , 7F
erver來用
06/16 16:30, 7F
我的需求只有推理,所以不需要考慮租用大 GPU 來訓練。

06/16 16:31, 1周前 , 8F
去對岸挖過時的EPYC比較有機會吧
06/16 16:31, 8F

06/16 16:34, 1周前 , 9F

06/16 16:35, 1周前 , 10F
如果你有辦法用cpu去跑的話
06/16 16:35, 10F

06/16 16:36, 1周前 , 11F
24通道 40萬台幣
06/16 16:36, 11F

06/16 16:37, 1周前 , 12F
不過這好像跟過時沒關係(X)
06/16 16:37, 12F
嚴重爆預算 這真的捏不了...

06/16 16:42, 1周前 , 13F
所以你還沒測過CPU跑的效果?
06/16 16:42, 13F
我有先用目前的配備用 CPU 跑過,7b q4 大概 12 t/s,我覺得已經夠用了。 但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s,遠遠達不到可用的狀態。 內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題,但就跟大模型說掰掰了。 以換換病的比喻就是吃了止痛藥但未來可能還會發作。

06/16 16:47, 1周前 , 14F
colab pro, AWS都可以先測試一下?
06/16 16:47, 14F

06/16 16:47, 1周前 , 15F
花個幾百塊台幣而已
06/16 16:47, 15F
嗯嗯 我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:05

06/16 17:12, 1周前 , 16F
先試看看花多少時間建立環境跟調整 用用
06/16 17:12, 16F

06/16 17:12, 1周前 , 17F
看囉 Nvidia猛的是在生態
06/16 17:12, 17F
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:59 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:13:34 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:14:41 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:15:28 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:17:45

06/16 17:32, 1周前 , 18F
我自己跑GPT的心得是,瓶頸在GPU
06/16 17:32, 18F

06/16 17:33, 1周前 , 19F
可以考慮用vast租2-4張4090跑跑看感受下效
06/16 17:33, 19F

06/16 17:33, 1周前 , 20F
06/16 17:33, 20F
我的用途會比較像是長期在線的,主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。

06/16 17:33, 1周前 , 21F
然後還跟VRAM有關係,VRAM不夠,給的文章
06/16 17:33, 21F

06/16 17:34, 1周前 , 22F
長一點,就讀不下去了
06/16 17:34, 22F
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:46:12

06/16 17:55, 1周前 , 23F
我的意思是先用租的確認模型執行需要的vra
06/16 17:55, 23F

06/16 17:55, 1周前 , 24F
m,例如先跑q4評估精度、速度可不可用上下
06/16 17:55, 24F

06/16 17:55, 1周前 , 25F
文要多長,如果tps很夠用可以再考慮是否降
06/16 17:55, 25F

06/16 17:55, 1周前 , 26F
級改更多卡湊vram
06/16 17:55, 26F
是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力,所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比,不論是 CPU 還是 GPU 都是這個結果。 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:13:42

06/16 18:23, 1周前 , 27F
這預算怎麼會是選INTEL,連垃圾佬都不
06/16 18:23, 27F

06/16 18:23, 1周前 , 28F
撿的東西(X
06/16 18:23, 28F

06/16 18:23, 1周前 , 29F
EPYC 7002 7003對岸撿不是隨便都比W5-3
06/16 18:23, 29F
還有 19 則推文
還有 3 段內文
06/16 19:35, 1周前 , 49F
用最丐的3060測試堆vram也比cpu快多了,70
06/16 19:35, 49F

06/16 19:35, 1周前 , 50F
B-Q4
06/16 19:35, 50F

06/16 19:35, 1周前 , 51F
預算夠就直上兩張4090比較實在
06/16 19:35, 51F

06/16 19:35, 1周前 , 52F

06/16 19:35, 1周前 , 53F

06/16 20:49, 1周前 , 54F
推論要用支援AMX指令集的CPU
06/16 20:49, 54F

06/16 20:54, 1周前 , 55F
不然就要模型有支援老黃的推論單元
06/16 20:54, 55F

06/16 20:55, 1周前 , 56F
EPYC又不支援AMX,最差選擇
06/16 20:55, 56F

06/16 21:16, 1周前 , 57F
除非是對資料隱私有需求 不然自己架LLM
06/16 21:16, 57F

06/16 21:16, 1周前 , 58F
做推論 電腦和冷氣電費、噪音加一加成
06/16 21:16, 58F

06/16 21:16, 1周前 , 59F
本太高了
06/16 21:16, 59F

06/16 21:16, 1周前 , 60F

06/16 21:27, 1周前 , 61F
啊如果真的要入坑就對岸撿一組EPYC組多
06/16 21:27, 61F

06/16 21:27, 1周前 , 62F
卡 或是用ARM Mac跑也許會比較安靜省電
06/16 21:27, 62F

06/16 21:49, 1周前 , 63F
AWS EC2 G5/G6 跑 inference
06/16 21:49, 63F

06/16 22:41, 1周前 , 64F
我跑Commamd R,記憶體沒爆還是慢到無法
06/16 22:41, 64F

06/16 22:41, 1周前 , 65F
接受(大概每秒1Token),處理器也跑不滿
06/16 22:41, 65F

06/16 22:41, 1周前 , 66F
,還是給VRAM跑吧
06/16 22:41, 66F

06/16 23:26, 1周前 , 67F
要塞70b的 就建議直上租借了...
06/16 23:26, 67F

06/16 23:26, 1周前 , 68F
70b 也只是入門
06/16 23:26, 68F

06/16 23:26, 1周前 , 69F
剛剛看到老黃推出了 340b
06/16 23:26, 69F

06/16 23:26, 1周前 , 70F
稍微看了一下 要inference
06/16 23:26, 70F

06/16 23:26, 1周前 , 71F
至少兩張 A100 or 一張 h100
06/16 23:26, 71F

06/16 23:30, 1周前 , 72F
這段演化真的衝很快,還是是老黃說了算
06/16 23:30, 72F

06/16 23:30, 1周前 , 73F
總之多學多看 實作真的可以省一點
06/16 23:30, 73F

06/16 23:30, 1周前 , 74F
論文現在是天天噴發 llama2才發布多久
06/16 23:30, 74F

06/16 23:30, 1周前 , 75F
llama3就出來 迭代太快了
06/16 23:30, 75F

06/17 00:04, 1周前 , 76F
你這完全沒研究的不如先去租個容器來用看看
06/17 00:04, 76F

06/17 00:04, 1周前 , 77F
再說
06/17 00:04, 77F

06/17 05:04, 1周前 , 78F
有個麻煩的地方 現在這些模型和硬體超級
06/17 05:04, 78F

06/17 05:05, 1周前 , 79F
快 自己買硬體弄這些 會不會很快就跟不上
06/17 05:05, 79F

06/17 05:05, 1周前 , 80F
更好的模型的基本需求? 更高效率的硬體
06/17 05:05, 80F

06/17 05:06, 1周前 , 81F
或是 更棒的模型但基本需求也快速提升
06/17 05:06, 81F

06/17 05:07, 1周前 , 82F
之類的 這跟現在一般自組電腦對應的需求
06/17 05:07, 82F

06/17 05:07, 1周前 , 83F
完全不同
06/17 05:07, 83F

06/17 09:06, 1周前 , 84F
建議你好好研究模型Inference 是用什麼
06/17 09:06, 84F

06/17 11:08, 1周前 , 85F
現在噴發期除發為了賺錢不然真的不建議
06/17 11:08, 85F

06/17 11:08, 1周前 , 86F
為了興趣砸大錢
06/17 11:08, 86F

06/17 11:10, 1周前 , 87F
然後所有人都在搞gpu的項目為什麼要自己
06/17 11:10, 87F

06/17 11:11, 1周前 , 88F
想繞過去用cpu搞自己....
06/17 11:11, 88F
文章代碼(AID): #1cRfUWKX (PC_Shopping)
文章代碼(AID): #1cRfUWKX (PC_Shopping)