[閒聊] LLM 推理用機器

06/16 16:31, 5月前 , 8^F

06/16 16:31, 8^F

→

06/16 16:34, 5月前 , 9^F

06/16 16:34, 9^F

→

06/16 16:35, 5月前 , 10^F

06/16 16:35, 10^F

→

06/16 16:36, 5月前 , 11^F

06/16 16:36, 11^F

→

06/16 16:37, 5月前 , 12^F

06/16 16:37, 12^F

嚴重爆預算這真的捏不了...

→

spfy

06/16 16:42, 5月前 , 13^F

06/16 16:42, 13^F

我有先用目前的配備用 CPU 跑過，7b q4 大概 12 t/s，我覺得已經夠用了。但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s，遠遠達不到可用的狀態。內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題，但就跟大模型說掰掰了。以換換病的比喻就是吃了止痛藥但未來可能還會發作。

推

ptta

06/16 16:47, 5月前 , 14^F

06/16 16:47, 14^F

→

ptta

06/16 16:47, 5月前 , 15^F

06/16 16:47, 15^F

嗯嗯我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:05

→

kivan00

06/16 17:12, 5月前 , 16^F

06/16 17:12, 16^F

→

kivan00

06/16 17:12, 5月前 , 17^F

06/16 17:12, 17^F

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:59 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:13:34 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:14:41 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:15:28 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:17:45

→

yymeow

06/16 17:32, 5月前 , 18^F

06/16 17:32, 18^F

推

06/16 17:33, 5月前 , 19^F

06/16 17:33, 19^F

→

06/16 17:33, 5月前 , 20^F

06/16 17:33, 20^F

我的用途會比較像是長期在線的，主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。

→

yymeow

06/16 17:33, 5月前 , 21^F

06/16 17:33, 21^F

→

yymeow

06/16 17:34, 5月前 , 22^F

06/16 17:34, 22^F

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:46:12

推

06/16 17:55, 5月前 , 23^F

06/16 17:55, 23^F

→

06/16 17:55, 5月前 , 24^F

06/16 17:55, 24^F

→

06/16 17:55, 5月前 , 25^F

06/16 17:55, 25^F

→

06/16 17:55, 5月前 , 26^F

06/16 17:55, 26^F

是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力，所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比，不論是 CPU 還是 GPU 都是這個結果。 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:13:42

→

narukaza

06/16 18:23, 5月前 , 27^F

06/16 18:23, 27^F

→

narukaza

06/16 18:23, 5月前 , 28^F

06/16 18:23, 28^F

→

narukaza

06/16 18:23, 5月前 , 29^F

06/16 18:23, 29^F

還有 19 則推文

還有 3 段內文

推

06/16 19:35, 5月前 , 49^F

06/16 19:35, 49^F

→

06/16 19:35, 5月前 , 50^F

06/16 19:35, 50^F

→

06/16 19:35, 5月前 , 51^F

06/16 19:35, 51^F

→

06/16 19:35, 5月前 , 52^F

06/16 19:35, 52^F

→

06/16 19:35, 5月前 , 53^F

06/16 19:35, 53^F

推

aegis43210

06/16 20:49, 5月前 , 54^F

06/16 20:49, 54^F

推

aegis43210

06/16 20:54, 5月前 , 55^F

06/16 20:54, 55^F

→

aegis43210

06/16 20:55, 5月前 , 56^F

06/16 20:55, 56^F

推

06/16 21:16, 5月前 , 57^F

06/16 21:16, 57^F

→

06/16 21:16, 5月前 , 58^F

06/16 21:16, 58^F

→

06/16 21:16, 5月前 , 59^F

06/16 21:16, 59^F

→

06/16 21:16, 5月前 , 60^F

06/16 21:16, 60^F

推

06/16 21:27, 5月前 , 61^F

06/16 21:27, 61^F

→

06/16 21:27, 5月前 , 62^F

06/16 21:27, 62^F

→

nemo33

06/16 21:49, 5月前 , 63^F

06/16 21:49, 63^F

推

ClixTW

06/16 22:41, 5月前 , 64^F

06/16 22:41, 64^F

→

ClixTW

06/16 22:41, 5月前 , 65^F

06/16 22:41, 65^F

→

ClixTW

06/16 22:41, 5月前 , 66^F

06/16 22:41, 66^F

推

06/16 23:26, 5月前 , 67^F

06/16 23:26, 67^F

→

06/16 23:26, 5月前 , 68^F

06/16 23:26, 68^F

→

06/16 23:26, 5月前 , 69^F

06/16 23:26, 69^F

→

06/16 23:26, 5月前 , 70^F

06/16 23:26, 70^F

→

06/16 23:26, 5月前 , 71^F

06/16 23:26, 71^F

→

06/16 23:30, 5月前 , 72^F

06/16 23:30, 72^F

→

06/16 23:30, 5月前 , 73^F

06/16 23:30, 73^F

→

06/16 23:30, 5月前 , 74^F

06/16 23:30, 74^F

→

06/16 23:30, 5月前 , 75^F

06/16 23:30, 75^F

→

DLHZ

06/17 00:04, 5月前 , 76^F

06/17 00:04, 76^F

→

DLHZ

06/17 00:04, 5月前 , 77^F

06/17 00:04, 77^F

推

06/17 05:04, 5月前 , 78^F

06/17 05:04, 78^F

→

06/17 05:05, 5月前 , 79^F

06/17 05:05, 79^F

→

06/17 05:05, 5月前 , 80^F

06/17 05:05, 80^F

→

06/17 05:06, 5月前 , 81^F

06/17 05:06, 81^F

→

06/17 05:07, 5月前 , 82^F

06/17 05:07, 82^F

→

06/17 05:07, 5月前 , 83^F

06/17 05:07, 83^F

推

ChouEita

06/17 09:06, 5月前 , 84^F

06/17 09:06, 84^F

推

06/17 11:08, 5月前 , 85^F

06/17 11:08, 85^F

→

06/17 11:08, 5月前 , 86^F

06/17 11:08, 86^F

推

06/17 11:10, 5月前 , 87^F

06/17 11:10, 87^F

→