[請益] 兩個改裝方案跑本地LLM請賜教

看板PC_Shopping (個人電腦購買)作者 (紐約客)時間3周前 (2026/02/11 10:34), 3周前編輯推噓36(360154)
留言190則, 32人參與, 2周前最新討論串1/2 (看更多)
先說我的配備 CPU AMD RYZEN 9950 主板 ASUS CROSSHAIR X870E HERO RAM Kingston furry beast ddr5 5600 32g x2 crucial pro ddr5 6000 32g x2 共128g ssd 美光 T500 2tb 顯示卡 GIGABYTE GAMING OC 5090 GIGABYTE 4070TIS 16G 共48G VRAM 兩台螢幕用舊的不算錢 跑 GPT_OSS 120B 慢但可接受 QWEN 30B_A3B慢可接受 Deepseek 70b 更慢比gpt-oss 120b 稍快 這塊主板最高記憶體只能加到192gb, 現在128, vram 現在48gb 因為LLM架在ollama下所以在VRAM不夠時例如在跑OSS 120B模型它會自己調用主機記憶體,速度有變慢,尤其是High thinking模式時,但是這塊板子只能插兩張顯示卡,,如果要順跑120B高思考模式,是換主板再加一張16g或32g顯示卡變成插三張卡或是換掉16g顯示卡改插rtx pro 6000前者是不是C/P值比較高? 後者成本太高,會不會兩個方案跑起來差不多? ----- Sent from JPTT on my Samsung SM-S7110. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.98.194 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770777269.A.022.html ※ 編輯: newyorker54 (140.116.98.194 臺灣), 02/11/2026 10:35:38

02/11 10:42, 3周前 , 1F
都有預算6000了 還需要想嗎
02/11 10:42, 1F

02/11 10:45, 3周前 , 2F
我覺得東西一多問題比較大,換pro
02/11 10:45, 2F

02/11 10:45, 3周前 , 3F
6000
02/11 10:45, 3F

02/11 10:52, 3周前 , 4F
半年前問的話你還有X99並聯主板加3090魔
02/11 10:52, 4F

02/11 10:52, 3周前 , 5F
改卡x4這個選擇,現在就不用想了
02/11 10:52, 5F

02/11 11:06, 3周前 , 6F
你只卡在120B的話6000還行,不然直上大
02/11 11:06, 6F

02/11 11:06, 3周前 , 7F
容量mac比較實在
02/11 11:06, 7F

02/11 11:16, 3周前 , 8F
問題在於原PO是要跑得起來還是跑得不慢
02/11 11:16, 8F

02/11 11:17, 3周前 , 9F
跑得起來,用多張顯卡加上GPU layer off-
02/11 11:17, 9F

02/11 11:17, 3周前 , 10F
load是可以上去,但是會卡PCIe還有卡對卡
02/11 11:17, 10F

02/11 11:18, 3周前 , 11F
傳輸瓶頸。若是要順還是要上6000的卡,或
02/11 11:18, 11F

02/11 11:18, 3周前 , 12F
是找統一記憶體的mac mini或GX10
02/11 11:18, 12F

02/11 11:19, 3周前 , 13F
公司用一律上6000的卡,個人的話可以用統
02/11 11:19, 13F

02/11 11:20, 3周前 , 14F
一記憶體的解決方案
02/11 11:20, 14F

02/11 11:22, 3周前 , 15F
層數分割其實對於pcie頻寬的要求很低
02/11 11:22, 15F

02/11 11:22, 3周前 , 16F
只要能塞進vram 傳輸的只有中間值就算
02/11 11:22, 16F

02/11 11:22, 3周前 , 17F
是礦機板都可以跑的起來
02/11 11:22, 17F

02/11 11:22, 3周前 , 18F
只有初次載入會比較慢
02/11 11:22, 18F

02/11 11:24, 3周前 , 19F
光華在海鮮上了一堆運算卡,你去看
02/11 11:24, 19F

02/11 11:24, 3周前 , 20F
看,我剛看到一個VRAM 72G的鬼東西
02/11 11:24, 20F

02/11 11:24, 3周前 , 21F
還比pro 6000便宜
02/11 11:24, 21F

02/11 11:25, 3周前 , 22F
真正的推理的瓶頸還是在vram頻寬
02/11 11:25, 22F

02/11 11:25, 3周前 , 23F
反而是統一記憶體的方案大多會在預充填
02/11 11:25, 23F

02/11 11:25, 3周前 , 24F
階段帶來顯著的落差
02/11 11:25, 24F

02/11 11:29, 3周前 , 25F
5090跑30B A3B應該很快吧
02/11 11:29, 25F

02/11 11:29, 3周前 , 26F
所以請問mac studio 會優於pro 6000?
02/11 11:29, 26F

02/11 11:33, 3周前 , 27F
不會 頻寬和算力都有落差
02/11 11:33, 27F

02/11 11:34, 3周前 , 28F
mac 比較像是想省電省空間的權衡方案
02/11 11:34, 28F

02/11 11:34, 3周前 , 29F
單論性能可能還不如你直接塞第三張卡
02/11 11:34, 29F

02/11 11:38, 3周前 , 30F
依我個人立場來說的話
02/11 11:38, 30F

02/11 11:38, 3周前 , 31F
現在這個狀況想初期省錢就塞第三張卡
02/11 11:38, 31F

02/11 11:38, 3周前 , 32F
可以兼顧效能和短期錢包
02/11 11:38, 32F

02/11 11:38, 3周前 , 33F
缺點是供電和排熱環境可能要一起整理
02/11 11:38, 33F

02/11 11:38, 3周前 , 34F
願意多花錢又想追求效能那就上6000
02/11 11:38, 34F

02/11 11:38, 3周前 , 35F
如果要極致的省空間和省電才選擇mac
02/11 11:38, 35F

02/11 11:38, 3周前 , 36F
但同時犧牲了核心算力效能頻寬 和生態
02/11 11:38, 36F

02/11 11:38, 3周前 , 37F
成熟度
02/11 11:38, 37F

02/11 11:43, 3周前 , 38F
哪個更好取決於你的工作重心在哪 如果是
02/11 11:43, 38F

02/11 11:43, 3周前 , 39F
訓練10億個tokens,pro6000理論上快7倍。
02/11 11:43, 39F
還有 111 則推文
02/11 19:09, 3周前 , 151F
4070tis在這個場景應該沒有甚麼幫助?
02/11 19:09, 151F

02/11 19:35, 3周前 , 152F
Exo 串聯跑 405B,準備 4 台 64GB 的
02/11 19:35, 152F

02/11 19:35, 3周前 , 153F
Mac Mini,這是目前的甜蜜點
02/11 19:35, 153F

02/11 19:37, 3周前 , 154F
4台mini 64G跑405B 你懂的
02/11 19:37, 154F

02/11 19:37, 3周前 , 155F
還在那邊120B
02/11 19:37, 155F

02/11 19:41, 3周前 , 156F
405b是哪個時代的模型來著… 不會是lla
02/11 19:41, 156F

02/11 19:41, 3周前 , 157F
ma3.1吧
02/11 19:41, 157F

02/11 19:41, 3周前 , 158F
現在minimax glm隨便都贏吧 參數量大又
02/11 19:41, 158F

02/11 19:41, 3周前 , 159F
沒料
02/11 19:41, 159F

02/11 19:46, 3周前 , 160F
所以有組過405B ?
02/11 19:46, 160F

02/11 19:47, 3周前 , 161F
原Po 就用Llama 為啥要改用minimax?
02/11 19:47, 161F

02/11 19:56, 3周前 , 162F
原po哪裡有用llama benchmark贏那麼多
02/11 19:56, 162F

02/11 19:56, 3周前 , 163F
誰會用llama
02/11 19:56, 163F

02/11 20:05, 3周前 , 164F
樓上都有人用llama測了,現階段mac系
02/11 20:05, 164F

02/11 20:05, 3周前 , 165F
列就是最優解了
02/11 20:05, 165F

02/11 20:09, 3周前 , 166F
llama.cpp跟ollama是跑llm的平台 沒有
02/11 20:09, 166F

02/11 20:09, 3周前 , 167F
人會用llama模型
02/11 20:09, 167F

02/11 20:54, 3周前 , 168F
原PO的ollma是不是設成2張GPU平均使用?
02/11 20:54, 168F

02/11 20:54, 3周前 , 169F
請將4070tis拆掉,然後依qwen3和GPT-oss的
02/11 20:54, 169F

02/11 20:54, 3周前 , 170F
設定建議,將全部layer都offload到RAM上,
02/11 20:54, 170F

02/11 20:54, 3周前 , 171F
GPU只跑MOE層就好
02/11 20:54, 171F

02/11 20:57, 3周前 , 172F
想成我常用的NEXT 80B了,30B那個可以全到
02/11 20:57, 172F

02/11 20:58, 3周前 , 173F
5090的VRAM上,不要受4070tis降速
02/11 20:58, 173F

02/11 21:22, 3周前 , 174F
DRAM夠的話,Ktransformers 可以先試試
02/11 21:22, 174F

02/11 21:52, 3周前 , 175F
感謝各位高手的建議,等我消化完這些
02/11 21:52, 175F

02/11 21:52, 3周前 , 176F
訊息,過幾天再來回報
02/11 21:52, 176F

02/11 21:59, 3周前 , 177F
基本上跑32B或github抓下來的55B都可
02/11 21:59, 177F

02/11 21:59, 3周前 , 178F
以順跑,兩張顯示卡性能有差距,vllm
02/11 21:59, 178F

02/11 21:59, 3周前 , 179F
不管我怎麼分配系統都是無法執行,查
02/11 21:59, 179F

02/11 21:59, 3周前 , 180F
了其他人的經驗,兩張相同顯卡才容易
02/11 21:59, 180F

02/11 21:59, 3周前 , 181F
設定成功,所以我放棄了vllm跑,直接
02/11 21:59, 181F

02/11 21:59, 3周前 , 182F
在ollma介面跑,指令環境下也可以,o
02/11 21:59, 182F

02/11 21:59, 3周前 , 183F
llama會自動適配記憶體,所以就沒再
02/11 21:59, 183F

02/11 21:59, 3周前 , 184F
花時間,可能我功力不夠
02/11 21:59, 184F

02/12 00:01, 3周前 , 185F
要買6000就快買要漲了
02/12 00:01, 185F

02/12 07:38, 3周前 , 186F
原PO需求還沒必要換pro6000吧,真要升級,
02/12 07:38, 186F

02/12 07:38, 3周前 , 187F
我是建議把4070tis和舊RAM全賣了,升256G
02/12 07:38, 187F

02/13 09:55, 2周前 , 188F
Pro 6000 肯定快很多
02/13 09:55, 188F

02/13 09:55, 2周前 , 189F
Maker Studio 什么都能跑,但是速度不满
02/13 09:55, 189F

02/13 09:55, 2周前 , 190F
意啊。
02/13 09:55, 190F
文章代碼(AID): #1fY-gr0Y (PC_Shopping)
文章代碼(AID): #1fY-gr0Y (PC_Shopping)