Re: [請益] 兩個改裝方案跑本地LLM請賜教
如果你今天只打算用ollama跑
那建議你放棄更新硬體了
直接用網路上的API比較划算
以oss-120B為例子
你用現在的硬體跑估計每秒20左右吧?
你換Pro 6000大概也才8~90每秒
比對現在API價格
你的Pro 6000大概要不眠不休輸出20年才可以回本
而且這還是不考慮電費的情況
然後就是你買GPU如果只是為了VRAM
那這和你直接插RAM沒什麼差別
我不是很確定目前ollama能不能支援張量並行
但就算支援張量並行 你的速度也會受限於比較慢的那張卡
再者就是如果要張量並行
你的GPU數量只能是2的指數個
用3片GPU是毫無意義的
有人可能會好奇那Pro 6000不就是垃圾?
上面之所以會說要不眠不休20年才會回本
是因為原po是打算用ollama跑
他只能單一時間為單一request服務
目前主流都是在Linux環境用vllm跑模型推論服務 同時為多人服務
高併發情境下讓他保持最大吞吐量
大概可以不到半年就回本
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.39.243.162 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770879748.A.7EE.html
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
PC_Shopping 近期熱門文章
PTT數位生活區 即時熱門文章