[閒聊] LLM 推理用機器
看板PC_Shopping (個人電腦購買)作者sachialanlus (yeh)時間5月前 (2024/06/16 15:43)推噓18(19推 1噓 68→)留言88則, 24人參與討論串1/1
由於最近 LLM 發展越來越快,剛好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供應商的服務。
從前幾個月開始就有想要自己弄個機器來架設服務的想法。
最近開始也對高參數的模型越來越好奇,但由於大容量 VRAM 的 GPU 實在是買不起,所以想說是不是轉用 CPU 來玩玩看。
我看了很多技術分析和 Benchmark,基本上都說 LLM 的 inference 目前是 memory bound,也就是 memory bandwidth 是瓶頸。
所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的幾個型號,其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800,換算起來頻寬大概是主流 PC 的 3-4 倍。
但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
為了要用這顆 CPU,整個成本算起來根本不比買多張卡來得划算多少。
我就在想是不是還是 GPU 多卡買一買就好了,反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。
唯一想到的用途就是同時開很多個 instance 來服務不同的需求。
(上上個月還有海淘一張 2080Ti 22G 來試試看,結果用沒幾天就壞了... 還好能退)
最近也有在看 AMD 的 Strix Point,這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能,但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。
選 Strix Point 就等同於犧牲了當初追求的效能,但優點是低功耗而且便宜。
是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。
相比多卡的方案用 iGPU 的好處就是低功耗,但效能實在是天差地別。
有人也有類似的煩惱嗎?
我自己的話預算希望是 100k 以內,最多捏到 150k。
-----
Sent from JPTT on my Xiaomi 23127PN0CG.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.35.51 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1718523808.A.521.html
→
06/16 16:05,
5月前
, 1F
06/16 16:05, 1F
確實好像可以先去雲端平台租高階 CPU 來玩玩看,這我倒是之前沒想過。
之前對於雲端平台就只想到租 GPU 而已。
→
06/16 16:05,
5月前
, 2F
06/16 16:05, 2F
→
06/16 16:07,
5月前
, 3F
06/16 16:07, 3F
Mac 的話剛看了下 Mac Studio 好像也不是不行,但稍微爆預算。
推
06/16 16:14,
5月前
, 4F
06/16 16:14, 4F
推
06/16 16:30,
5月前
, 5F
06/16 16:30, 5F
→
06/16 16:30,
5月前
, 6F
06/16 16:30, 6F
→
06/16 16:30,
5月前
, 7F
06/16 16:30, 7F
我的需求只有推理,所以不需要考慮租用大 GPU 來訓練。
→
06/16 16:31,
5月前
, 8F
06/16 16:31, 8F
→
06/16 16:34,
5月前
, 9F
06/16 16:34, 9F
→
06/16 16:35,
5月前
, 10F
06/16 16:35, 10F
→
06/16 16:36,
5月前
, 11F
06/16 16:36, 11F
→
06/16 16:37,
5月前
, 12F
06/16 16:37, 12F
嚴重爆預算 這真的捏不了...
→
06/16 16:42,
5月前
, 13F
06/16 16:42, 13F
我有先用目前的配備用 CPU 跑過,7b q4 大概 12 t/s,我覺得已經夠用了。
但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s,遠遠達不到可用的狀態。
內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題,但就跟大模型說掰掰了。
以換換病的比喻就是吃了止痛藥但未來可能還會發作。
推
06/16 16:47,
5月前
, 14F
06/16 16:47, 14F
→
06/16 16:47,
5月前
, 15F
06/16 16:47, 15F
嗯嗯 我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:05
→
06/16 17:12,
5月前
, 16F
06/16 17:12, 16F
→
06/16 17:12,
5月前
, 17F
06/16 17:12, 17F
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:59
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:13:34
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:14:41
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:15:28
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:17:45
→
06/16 17:32,
5月前
, 18F
06/16 17:32, 18F
推
06/16 17:33,
5月前
, 19F
06/16 17:33, 19F
→
06/16 17:33,
5月前
, 20F
06/16 17:33, 20F
我的用途會比較像是長期在線的,主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。
→
06/16 17:33,
5月前
, 21F
06/16 17:33, 21F
→
06/16 17:34,
5月前
, 22F
06/16 17:34, 22F
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:46:12
推
06/16 17:55,
5月前
, 23F
06/16 17:55, 23F
→
06/16 17:55,
5月前
, 24F
06/16 17:55, 24F
→
06/16 17:55,
5月前
, 25F
06/16 17:55, 25F
→
06/16 17:55,
5月前
, 26F
06/16 17:55, 26F
是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力,所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比,不論是 CPU 還是 GPU 都是這個結果。
※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:13:42
→
06/16 18:23,
5月前
, 27F
06/16 18:23, 27F
→
06/16 18:23,
5月前
, 28F
06/16 18:23, 28F
→
06/16 18:23,
5月前
, 29F
06/16 18:23, 29F
還有 19 則推文
還有 3 段內文
推
06/16 19:35,
5月前
, 49F
06/16 19:35, 49F
→
06/16 19:35,
5月前
, 50F
06/16 19:35, 50F
→
06/16 19:35,
5月前
, 51F
06/16 19:35, 51F
→
06/16 19:35,
5月前
, 52F
06/16 19:35, 52F
→
06/16 19:35,
5月前
, 53F
06/16 19:35, 53F
推
06/16 20:49,
5月前
, 54F
06/16 20:49, 54F
推
06/16 20:54,
5月前
, 55F
06/16 20:54, 55F
→
06/16 20:55,
5月前
, 56F
06/16 20:55, 56F
推
06/16 21:16,
5月前
, 57F
06/16 21:16, 57F
→
06/16 21:16,
5月前
, 58F
06/16 21:16, 58F
→
06/16 21:16,
5月前
, 59F
06/16 21:16, 59F
→
06/16 21:16,
5月前
, 60F
06/16 21:16, 60F
推
06/16 21:27,
5月前
, 61F
06/16 21:27, 61F
→
06/16 21:27,
5月前
, 62F
06/16 21:27, 62F
→
06/16 21:49,
5月前
, 63F
06/16 21:49, 63F
推
06/16 22:41,
5月前
, 64F
06/16 22:41, 64F
→
06/16 22:41,
5月前
, 65F
06/16 22:41, 65F
→
06/16 22:41,
5月前
, 66F
06/16 22:41, 66F
推
06/16 23:26,
5月前
, 67F
06/16 23:26, 67F
→
06/16 23:26,
5月前
, 68F
06/16 23:26, 68F
→
06/16 23:26,
5月前
, 69F
06/16 23:26, 69F
→
06/16 23:26,
5月前
, 70F
06/16 23:26, 70F
→
06/16 23:26,
5月前
, 71F
06/16 23:26, 71F
→
06/16 23:30,
5月前
, 72F
06/16 23:30, 72F
→
06/16 23:30,
5月前
, 73F
06/16 23:30, 73F
→
06/16 23:30,
5月前
, 74F
06/16 23:30, 74F
→
06/16 23:30,
5月前
, 75F
06/16 23:30, 75F
→
06/17 00:04,
5月前
, 76F
06/17 00:04, 76F
→
06/17 00:04,
5月前
, 77F
06/17 00:04, 77F
推
06/17 05:04,
5月前
, 78F
06/17 05:04, 78F
→
06/17 05:05,
5月前
, 79F
06/17 05:05, 79F
→
06/17 05:05,
5月前
, 80F
06/17 05:05, 80F
→
06/17 05:06,
5月前
, 81F
06/17 05:06, 81F
→
06/17 05:07,
5月前
, 82F
06/17 05:07, 82F
→
06/17 05:07,
5月前
, 83F
06/17 05:07, 83F
推
06/17 09:06,
5月前
, 84F
06/17 09:06, 84F
推
06/17 11:08,
5月前
, 85F
06/17 11:08, 85F
→
06/17 11:08,
5月前
, 86F
06/17 11:08, 86F
推
06/17 11:10,
5月前
, 87F
06/17 11:10, 87F
→
06/17 11:11,
5月前
, 88F
06/17 11:11, 88F
PC_Shopping 近期熱門文章
PTT數位生活區 即時熱門文章