Re: [請益] 兩個改裝方案跑本地LLM請賜教

看板PC_Shopping (個人電腦購買)作者 (foxx)時間2周前 (2026/02/12 15:02), 編輯推噓20(20073)
留言93則, 5人參與, 2周前最新討論串2/2 (看更多)
如果你今天只打算用ollama跑 那建議你放棄更新硬體了 直接用網路上的API比較划算 以oss-120B為例子 你用現在的硬體跑估計每秒20左右吧? 你換Pro 6000大概也才8~90每秒 比對現在API價格 你的Pro 6000大概要不眠不休輸出20年才可以回本 而且這還是不考慮電費的情況 然後就是你買GPU如果只是為了VRAM 那這和你直接插RAM沒什麼差別 我不是很確定目前ollama能不能支援張量並行 但就算支援張量並行 你的速度也會受限於比較慢的那張卡 再者就是如果要張量並行 你的GPU數量只能是2的指數個 用3片GPU是毫無意義的 有人可能會好奇那Pro 6000不就是垃圾? 上面之所以會說要不眠不休20年才會回本 是因為原po是打算用ollama跑 他只能單一時間為單一request服務 目前主流都是在Linux環境用vllm跑模型推論服務 同時為多人服務 高併發情境下讓他保持最大吞吐量 大概可以不到半年就回本 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.39.243.162 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770879748.A.7EE.html

02/12 19:51, 2周前 , 1F
我也是被ollama的低效率坑過,最坑的
02/12 19:51, 1F

02/12 19:51, 2周前 , 2F
是他不能同時發request,只能排隊
02/12 19:51, 2F

02/12 19:51, 2周前 , 3F
所以我後來直接投入vllm的懷抱
02/12 19:51, 3F

02/12 19:51, 2周前 , 4F
有時候硬體投資不一定是要回本,說不
02/12 19:51, 4F

02/12 19:51, 2周前 , 5F
定原PO有必須落地使用的場景
02/12 19:51, 5F

02/12 21:22, 2周前 , 6F
我也是棄ollama,覺得最佳化調整不易
02/12 21:22, 6F

02/12 21:22, 2周前 , 7F
不過GPT-oss 120B在使用上只需要用MOE架構
02/12 21:22, 7F

02/12 21:23, 2周前 , 8F
來跑就可以達到很好的效果,並不需用vllm的
02/12 21:23, 8F

02/12 21:23, 2周前 , 9F
張量並行來應用多GPU
02/12 21:23, 9F

02/12 21:24, 2周前 , 10F
我只用5080+64G RAM就可以跑20左右
02/12 21:24, 10F

02/13 18:27, 2周前 , 11F
GPTOSS120B能夠不用MOE架構來跑嗎..
02/13 18:27, 11F

02/14 02:05, 2周前 , 12F
我在用的環境輸入遠高於輸出 尤其大型
02/14 02:05, 12F

02/14 02:06, 2周前 , 13F
規範檔案一放就是五萬十萬起跳
02/14 02:06, 13F

02/14 07:16, 2周前 , 14F
GPT oss是MOE架構,所以跑起來就是MOE,我
02/14 07:16, 14F

02/14 07:16, 2周前 , 15F
的說法很不精確,應該說在單一GPU的VRAM不
02/14 07:16, 15F

02/14 07:16, 2周前 , 16F
足的前題下,可以考慮利用MOE架構特性,將
02/14 07:16, 16F

02/14 07:17, 2周前 , 17F
全部模型都offload到DRAM上,GPU只跑MOE層
02/14 07:17, 17F

02/14 07:17, 2周前 , 18F
,這樣是最划算的選擇
02/14 07:17, 18F

02/14 07:20, 2周前 , 19F
我的經驗是2張5080加部分offload的速度並不
02/14 07:20, 19F

02/14 07:21, 2周前 , 20F
會比較快比單5080來得快,可惜我今年才知道
02/14 07:21, 20F

02/14 07:21, 2周前 , 21F
這個特性,現在的DRAM買不下手了
02/14 07:21, 21F

02/14 07:22, 2周前 , 22F
上二行多字了,應為 "不會比單5080來得快"
02/14 07:22, 22F

02/14 07:30, 2周前 , 23F
想起前陣子研究這模型時,去年有人說花70ti
02/14 07:30, 23F

02/14 07:30, 2周前 , 24F
的錢買256G DRAM比買第二張90划算,難怪RAM
02/14 07:30, 24F

02/14 07:30, 2周前 , 25F
價格要爆漲呀,因為MOE架構讓PC玩家可以輕
02/14 07:30, 25F

02/14 07:30, 2周前 , 26F
鬆跑200B等級的大模型,如果不在乎速度和精
02/14 07:30, 26F

02/14 07:31, 2周前 , 27F
度,甚至1T等級的也可以跑了
02/14 07:31, 27F

02/14 07:35, 2周前 , 28F
不過這是消費等級的事,能買pro 6000的話,
02/14 07:35, 28F

02/14 07:35, 2周前 , 29F
全載到VRAM上用MXFP4跑,大概是200等級,差
02/14 07:35, 29F

02/14 07:35, 2周前 , 30F
距非常大,也才適合跑這篇說的agent服務
02/14 07:35, 30F

02/14 08:41, 2周前 , 31F
因為序列運算會被最慢的環節拖累
02/14 08:41, 31F

02/14 08:41, 2周前 , 32F
所以沒有升級到可以全部讀到VRAM裡面
02/14 08:41, 32F

02/14 08:42, 2周前 , 33F
的話升級的確是會沒有什麼感覺
02/14 08:42, 33F

02/14 08:44, 2周前 , 34F
主因是活動參數小所以對於頻寬的要求低
02/14 08:44, 34F

02/14 08:45, 2周前 , 35F
也是有些MOE沒有切那麼細的
02/14 08:45, 35F

02/14 08:46, 2周前 , 36F
而且這都是進到生成階段的事情
02/14 08:46, 36F

02/14 08:46, 2周前 , 37F
上下文一長CPU預充填就等死人了
02/14 08:46, 37F

02/14 09:09, 2周前 , 38F
確實是要看最慢環節,我在自己PC玩過5080+
02/14 09:09, 38F

02/14 09:10, 2周前 , 39F
5060ti16Gx2,總共48G,但速度真被第3張跑
02/14 09:10, 39F

02/14 09:10, 2周前 , 40F
pcie4X4的60ti嚴重拖累
02/14 09:10, 40F

02/14 20:09, 2周前 , 41F
換個軟體會發現新世界
02/14 20:09, 41F

02/15 14:36, 2周前 , 42F
花了兩天休假時間,總算在vllm架好 g
02/15 14:36, 42F

02/15 14:36, 2周前 , 43F
pt-oss:120b, 感謝各位高手提點
02/15 14:36, 43F

02/15 14:37, 2周前 , 44F
接著想挑戰step-flash-3.5
02/15 14:37, 44F

02/15 17:08, 2周前 , 45F
我很恐懼一件事,當人類登陸月球後破
02/15 17:08, 45F

02/15 17:08, 2周前 , 46F
滅了嫦娥廣寒宮的神話及天庭的幻想,
02/15 17:08, 46F

02/15 17:08, 2周前 , 47F
如果AI 證明了人腦神經運作和晶元半
02/15 17:08, 47F

02/15 17:08, 2周前 , 48F
導體運作相似,破滅了靈魂和性格的神
02/15 17:08, 48F

02/15 17:09, 2周前 , 49F
話,人的價值和存在是什麼?
02/15 17:09, 49F

02/15 17:14, 2周前 , 50F
這兩天一直用 chatgpt 5.2 pro幫忙,
02/15 17:14, 50F

02/15 17:14, 2周前 , 51F
經過大量執行報錯和修正,安裝好vllm
02/15 17:14, 51F

02/15 17:14, 2周前 , 52F
,wsl指令還掛掉,cuda toolkit新版
02/15 17:14, 52F

02/15 17:14, 2周前 , 53F
不能用,下載被攔截,其他AI模型不斷
02/15 17:14, 53F

02/15 17:14, 2周前 , 54F
引導錯誤甚至鬼打牆,總算裝好了
02/15 17:14, 54F

02/16 00:54, 2周前 , 55F
問題應該不是被第三張60TI拖累
02/16 00:54, 55F

02/16 00:55, 2周前 , 56F
而是因為48G還是放不下所有權重
02/16 00:55, 56F

02/16 00:55, 2周前 , 57F
還是會有部分被offload到系統RAM裡面
02/16 00:55, 57F

02/16 00:55, 2周前 , 58F
所以最慢的是系統ram那塊
02/16 00:55, 58F

02/16 00:56, 2周前 , 59F
只要沒辦法全部塞進VRAM 有一部分必須
02/16 00:56, 59F

02/16 00:56, 2周前 , 60F
放在系統RAM的話 那不管幾張卡 瓶頸
02/16 00:56, 60F

02/16 00:56, 2周前 , 61F
都還是那個最慢的DDR4/5 而不是顯示卡
02/16 00:56, 61F

02/16 00:57, 2周前 , 62F
因為分層 傳輸的中間值是塞不滿PCIE的
02/16 00:57, 62F

02/16 00:58, 2周前 , 63F
至於人的價值...為什麼你會希望人類有
02/16 00:58, 63F

02/16 00:58, 2周前 , 64F
什麼天命還是價值是其他東西沒有的?
02/16 00:58, 64F

02/16 00:59, 2周前 , 65F
如果真的有價值的東西 那不管背後是
02/16 00:59, 65F

02/16 00:59, 2周前 , 66F
神經元還是矽晶片 那就是會有價值
02/16 00:59, 66F

02/16 00:59, 2周前 , 67F
價值不由載體決定
02/16 00:59, 67F

02/16 02:38, 2周前 , 68F
經過兩天總時睡不到十小時,確定vllm
02/16 02:38, 68F

02/16 02:38, 2周前 , 69F
在wsl中不支援NCCL所以不能用張量並
02/16 02:38, 69F

02/16 02:38, 2周前 , 70F
行,只能用Linux系統所以我放棄張量
02/16 02:38, 70F

02/16 02:38, 2周前 , 71F
並行,網路也有人證實這點,想用的人
02/16 02:38, 71F

02/16 02:38, 2周前 , 72F
可以放棄了。至於llama.cpp應該可以s
02/16 02:38, 72F

02/16 02:38, 2周前 , 73F
pilit目前還在下載gguf過兩天再試
02/16 02:38, 73F

02/16 02:41, 2周前 , 74F
樓上有人說因為MOE架構offload影響速
02/16 02:41, 74F

02/16 02:41, 2周前 , 75F
度較少,有看到網路有人講,實際如何
02/16 02:41, 75F

02/16 02:41, 2周前 , 76F
我再實操看結果
02/16 02:41, 76F

02/16 07:50, 2周前 , 77F
喔,那個3張GPU共48G VRAM用來測過很多模型
02/16 07:50, 77F

02/16 07:51, 2周前 , 78F
,最關鍵的一個是Qwen3 Next 80B,雖然可以
02/16 07:51, 78F

02/16 07:51, 2周前 , 79F
全掛載進VRAM裡,但速度反而沒有變快,就算
02/16 07:51, 79F

02/16 07:51, 2周前 , 80F
是用5080+5060ti共32G VRAM來部分offload也
02/16 07:51, 80F

02/16 07:51, 2周前 , 81F
比較快,當然最快的還是我一直說的MOE架構
02/16 07:51, 81F

02/16 07:51, 2周前 , 82F
的專用跑法,單一5080是最快的
02/16 07:51, 82F

02/16 07:59, 2周前 , 83F
關於vllm,我是覺得確定要張量並行+批次再
02/16 07:59, 83F

02/16 08:00, 2周前 , 84F
使用,不然用llama.cpp沒什麼差,而且滿多
02/16 08:00, 84F

02/16 08:00, 2周前 , 85F
模型的操作文件都會用llama.cpp當範例,用
02/16 08:00, 85F

02/16 08:00, 2周前 , 86F
起來也會方便一些
02/16 08:00, 86F

02/16 13:00, 2周前 , 87F
早上把step-3.5-flash放在llama.cpp
02/16 13:00, 87F

02/16 13:00, 2周前 , 88F
全塞進VRAM因為chatgpt5.2建議這樣做
02/16 13:00, 88F

02/16 13:00, 2周前 , 89F
,還沒測試
02/16 13:00, 89F

02/17 09:24, 2周前 , 90F
把step 3.5全載進VRAM,所以您升級GPU了?
02/17 09:24, 90F

02/17 10:06, 2周前 , 91F
是的,經過反覆思考,現在不買以後更
02/17 10:06, 91F

02/17 10:06, 2周前 , 92F
貴,說不定用了一年還可以加價賣,與
02/17 10:06, 92F

02/17 10:06, 2周前 , 93F
其錢拿去換車,不如買卡每天玩本地AI
02/17 10:06, 93F
文章代碼(AID): #1fZNi4Vk (PC_Shopping)
文章代碼(AID): #1fZNi4Vk (PC_Shopping)