[情報]Zen 5微架構解密,提升執行單元數量與寬度

看板PC_Shopping (個人電腦購買)作者 (重返榮耀)時間3月前 (2024/07/17 01:26), 3月前編輯推噓56(560107)
留言163則, 51人參與, 3月前最新討論串1/1
來源 https://benchlife.info/amd-zen-5-microarchiteture-preview/ Intel 消費性平台消失的 AVX-512,以全速之姿在 AMD Zen 5 微架構當中復活了! 在正式進入 Zen 5 微架構之前,我們希望先行提到製程的二三事。 此次 Zen 5 微架構的推出,在製程方面搭配 TSMC N4(桌上型處理器版本)∕ N3(行動 處理器版本);特別是桌上型處理器版本,製程演進並不若 Zen(GF 14nm)> Zen 2( TSMC N7)或是 Zen 3(TSMC N7)> Zen 4(TSMC N5),N4 算是 N5 的強化版本,在 TSMC 的規劃中並非完整的製程世代躍進。有了這個先決條件之後,讀者可以思考一下 AMD 是如何去強調 Zen 5 和 Zen 4 之間的差異。 執行單元變多、變寬 相較於先前多個 Zen 微架構的世代演進,AMD 這次在 Zen 5 微架構的著墨上少了許多至 少 PPT 就少了好多頁,最主要的變化集中在執行單元的數量以及寬度。就 AMD 內部統計 而言,執行單元以及 retire 指令數量的成長替 Zen 5 IPC 貢獻最多效能提升幅度,資 料路徑強化 ∕ 解碼和微指令快取次之,原本在 Zen 4 IPC 提升幅度最大的前端部分反 而沒有提及。 ▼ Zen 5 微架構讓效能提升的因素,最主要集中於執行單元數量和寬度提升。 https://benchlife.info/wp-content/uploads/2024/07/001-1000x563.jpg
AMD Zen 5 IPC uplift percentage 讓我們同樣從處理器核心的前端出發:分支預測更為精準、輸出量提升、延遲更低已是每 一代微架構的必修學分,L1 指令快取也同樣改善了頻寬和延遲(每時脈週期 32Byte 升 級至 32Byte x 2)。比較重大的變化發生在解碼單元,直接從 Zen 4 的單一解碼單元每 時脈週期輸出 4 個指令,直接翻倍來到 Zen 5 的 2 個解碼單元每時脈週期共輸出 8 個 指令,微指令快取從每時脈週期輸出 9 個變成 6 x 2 個,微指令佇列配發數量也從每 時脈週期 6 個提升至 8 個。 ▼ Zen 5 微架構前端較大的變化位於解碼單元,從前一世代的 4 個指令翻倍為 8 個。 https://benchlife.info/wp-content/uploads/2024/07/002-1000x562.jpg
AMD Zen 5 frontend 整數單元部分,ALU 從 4 個提升至 6 個、乘法單元變成 3 個、AGU 和分支單元分別多 1 個,並且更平均地安排每個執行單元。隨著執行單元數量的提升,dispatch ∕ retire 指令數量最高也來到 8 個。從簡報的圖示看來,Zen 5 排程器的規劃方式也有 所不同,Zen 4 採用 2 個執行單元埠共用 1 個排程器的設計,Zen 5 則是改為含 ALU 功能的埠共用 1 個排程器、AGU 則共用另外 1 個,但 AMD 並未說明排程指令數量的變 化。 ▼ Zen 5 微架構整數部分新增多個執行單元,dispatch ∕ retire 同步提升至 8 個指 令。 https://benchlife.info/wp-content/uploads/2024/07/003-1000x562.jpg
AMD Zen 5 integer execution units 浮點數單元數量在 Zen 5 微架構並未升級,同樣有著 6 個(含 2 個浮點加法器、延遲 從 3 個週期縮減至 2 個週期),主要因應 AVX-512 指令集進行調整。Zen 4 雖然也支 援 AVX-512,卻是透過「double-pumped」的方式,讓寬度僅有 256bit 的浮點單元去執 行 512bit 浮點 ∕ 向量運算,如今 Zen 5 已將浮點單元擴充至完整 512bit,代表執行 AVX-512 指令時相較前一世代更快。在 AMD 內部的 IPC 效能測試之中,成長幅度最高 的部分也來自於執行 AVX-512 指令。 ▼ Zen 5 微架構已將浮點數執行單元部分擴展至完整 512bit,執行 AVX-512 指令相較 Zen 4 微架構更為快速。排程器也升級至 3 個,每個包含 32 個條目,暫存器也因應 AVX-512 而加寬至 512bit ∕ 384 個條目。 https://benchlife.info/wp-content/uploads/2024/07/004-1000x562.jpg
AMD Zen 5 float/vector execution units with AVX-512 因應執行單元數量擴增、浮點數單元寬度提升,餵資料的速度也必須加快。Zen 5 L1 資 料快取從前一世代 32KB ∕ 8-way,升級至 48KB ∕ 12-way,單一時脈週期最高也從載 入 3 筆 ∕ 儲存 2 筆升級為載入 4 筆 ∕ 儲存 2 筆資料(AMD 未說明 512bit 資料長 度時的變化)。其餘 L2、L3 沒有變化,依舊是 1MB ∕ 16-way、32MB ∕ 16-way( victim 設計,L3 快取實際容量會跟隨核心數量、產品定位而變動)。 題外話,由於 AMD Ryzen 9000 系列桌上型處理器依舊採用與 Ryzen 7000 系列桌上型處 理器相同的 cIOD,因此每個 CCD 向 cIOD 的讀寫頻寬應該也相同;每個 Infinity Fabric 時脈週期,CCD 向 cIOD 傳輸 16Byte 資料、cIOD 向 CCD 傳輸 32Byte 資料。 (根據 AMD 簡報尾部的附註小字,Ryzen 9000 搭配 DDR5 記憶體的較佳運作速度應該仍 是 DDR5-6000) ▼ Zen 5 L1 資料快取升級至 48KB ∕ 12-way,也同步提升讀寫頻寬。 https://benchlife.info/wp-content/uploads/2024/07/005-1000x562.jpg
AMD Zen 5 incresed L1 data cache capacity and set-association AVX-512 完整效能加持 最後就是 IPC 比比看的時間,根據 AMD 的測試,Zen 5 相較 Zen 4 的 IPC 幾何平均提 升幅度來到 16%,特別是那些使用到 AVX-512 指令的應用程式幅度最高,機器學習效能 可提升 32%、Geekbench 5.4 的 AES-XTS 更高達 34%! ▼ 相較於 Zen 4,Zen 5 IPC 幾何平均提升幅度達 16%。 https://benchlife.info/wp-content/uploads/2024/07/006-1000x562.jpg
AMD Zen 5 geomean 16% IPC uplift compared to Zen 4 ▼ 應用到 AVX-512 的指令,Zen 5 IPC 提升幅度更高! https://benchlife.info/wp-content/uploads/2024/07/007-1000x562.jpg
我猜遊戲性能7800X3D應該還是比9950X還強一些, 但影音處理,AI,渲染RYZEN 9950X應該就默秒全, 之前曾經看過7950X的某項AVX512測試結果很驚人 https://tinyurl.com/exubbs6n https://images.anandtech.com/graphs/graph17585/130235.png
這次完整 512bit FPU的效能應該會更強吧 期待之後的完整測試 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.241.108.76 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1721150760.A.9D6.html

07/17 02:22, 3月前 , 1F
聽起來就像tick tock
07/17 02:22, 1F

07/17 02:26, 3月前 , 2F
雖然看不懂不過這篇很佛心都用中譯詞
07/17 02:26, 2F

07/17 03:02, 3月前 , 3F
這個3D particle movement測試可以反映在
07/17 03:02, 3F

07/17 03:02, 3月前 , 4F
哪些應用上
07/17 03:02, 4F

07/17 03:46, 3月前 , 5F
wow,avx這麼兇殘
07/17 03:46, 5F

07/17 03:47, 3月前 , 6F
希望有16c32t的x3d出來
07/17 03:47, 6F

07/17 06:50, 3月前 , 7F
7950X3d 不就是16c 32t嗎
07/17 06:50, 7F

07/17 07:35, 3月前 , 8F
結果還是塞完整的512bit電路了
07/17 07:35, 8F

07/17 08:37, 3月前 , 9F
i粉會認為avx512已經是過時設計嗎?Y
07/17 08:37, 9F

07/17 08:46, 3月前 , 10F
I皇不用 就等於過時了 懂?
07/17 08:46, 10F

07/17 08:53, 3月前 , 11F
Intel也沒有不用 只是在消費級平台上放
07/17 08:53, 11F

07/17 08:53, 3月前 , 12F
棄而已
07/17 08:53, 12F

07/17 08:54, 3月前 , 13F
到時候來看看有沒有人評測A版的AVX512的功
07/17 08:54, 13F

07/17 08:54, 3月前 , 14F
耗 I版的AVX512功耗 I皇一直駕馭不了 嗎?
07/17 08:54, 14F

07/17 09:11, 3月前 , 15F
epyc敢塞192c時脈還這麼高能耗應該不差
07/17 09:11, 15F

07/17 09:11, 3月前 , 16F
真不知道怎麼弄的
07/17 09:11, 16F

07/17 09:16, 3月前 , 17F
9xxx的X3D先生出來再出來談吧,我是認為
07/17 09:16, 17F

07/17 09:16, 3月前 , 18F
快點把Jim找回去設計新CPU才是正經
07/17 09:16, 18F

07/17 09:17, 3月前 , 19F
等9000X3D
07/17 09:17, 19F

07/17 09:20, 3月前 , 20F
我記得舊的12代有些可以用AVX512吧
07/17 09:20, 20F

07/17 09:22, 3月前 , 21F
把Jim找回來幹嘛? 也要人家想回來
07/17 09:22, 21F

07/17 09:22, 3月前 , 22F
現在intel根本就不是對手
07/17 09:22, 22F

07/17 09:23, 3月前 , 23F
重返榮耀
07/17 09:23, 23F

07/17 09:28, 3月前 , 24F
PPT不管吹多好,都要等跑分出來再說
07/17 09:28, 24F

07/17 09:42, 3月前 , 25F
竟然有avx512 太扯
07/17 09:42, 25F

07/17 09:43, 3月前 , 26F
intel這次要被壓在地上摩擦了
07/17 09:43, 26F

07/17 09:49, 3月前 , 27F
看用途, 有用到512就吊打對手, 沒用到就
07/17 09:49, 27F

07/17 09:49, 3月前 , 28F
無感
07/17 09:49, 28F

07/17 09:51, 3月前 , 29F
zen4就有avx512了只是他是跑兩次
07/17 09:51, 29F

07/17 09:51, 3月前 , 30F
256bit電路達成,zen5給了一套完整的電路
07/17 09:51, 30F

07/17 09:53, 3月前 , 31F
intel當時avx512被詬病的是會鎖頻降頻
07/17 09:53, 31F

07/17 10:52, 3月前 , 32F
一張板子需要多少錢買的到@@
07/17 10:52, 32F
技嘉A620M-S2H一張2090元,隆仔的優質選哲

07/17 10:53, 3月前 , 33F
如果不會影響別的東西的效能 avx512 放那邊
07/17 10:53, 33F

07/17 10:54, 3月前 , 34F
不會有人抱怨的,雞肋指令集那麼多沒啥人譙啊
07/17 10:54, 34F

07/17 11:05, 3月前 , 35F
牙膏當初最大的問題是小核沒AVX512阿
07/17 11:05, 35F

07/17 11:06, 3月前 , 36F
因為小核沒有 結果搞到只能關小核才能
07/17 11:06, 36F

07/17 11:06, 3月前 , 37F
07/17 11:06, 37F

07/17 11:07, 3月前 , 38F
現在最便宜的板子也要3千
07/17 11:07, 38F
還有 86 則推文
07/18 01:46, 3月前 , 125F
最後也沒下文了
07/18 01:46, 125F

07/18 01:47, 3月前 , 126F
阿不過Arm真的暫時不用擔心遊戲續航啦
07/18 01:47, 126F

07/18 01:47, 3月前 , 127F
先能跑遊戲才是真的
07/18 01:47, 127F

07/18 04:18, 3月前 , 128F
現代cpu的內部架構不都是類risc的,外層都
07/18 04:18, 128F

07/18 04:18, 3月前 , 129F
有解碼器負責翻譯,轉譯cisc指令的x86當然
07/18 04:18, 129F

07/18 04:18, 3月前 , 130F
比risc的arm需要更高代價,x86的存在理由
07/18 04:18, 130F

07/18 04:18, 3月前 , 131F
也只有相容性而已
07/18 04:18, 131F

07/18 06:39, 3月前 , 132F
ARM跑遊戲我覺得大問題反而在GPU
07/18 06:39, 132F

07/18 06:39, 3月前 , 133F
X系列一堆遊戲開不起來或效能很差根本就
07/18 06:39, 133F

07/18 06:40, 3月前 , 134F
GPU驅動問題
07/18 06:40, 134F

07/18 06:41, 3月前 , 135F
相容性問題可不只是而已
07/18 06:41, 135F

07/18 06:41, 3月前 , 136F
實際用過就懂了啦!更何況X86現在跟ARM的
07/18 06:41, 136F

07/18 06:42, 3月前 , 137F
差距可沒有當年M1剛出來的時候那麼大
07/18 06:42, 137F

07/18 08:46, 3月前 , 138F
I皇不行了,改叫I兒吧
07/18 08:46, 138F

07/18 09:56, 3月前 , 139F
感覺比較像對料,沒有改架構
07/18 09:56, 139F

07/18 16:56, 3月前 , 140F
所以應該算是Zen4 +吧,吹AVX-512效能
07/18 16:56, 140F

07/18 16:56, 3月前 , 141F
感覺..
07/18 16:56, 141F

07/18 17:09, 3月前 , 142F
堆料是講I吧?Y
07/18 17:09, 142F

07/18 18:40, 3月前 , 143F
架構的確沒有大改,就Zen4升級版的感覺
07/18 18:40, 143F

07/18 19:16, 3月前 , 144F
改架構就是堆料阿 不然還有什麼改法
07/18 19:16, 144F

07/18 20:21, 3月前 , 145F
高通GPU從DX11開始支援,DX10以前不知
07/18 20:21, 145F

07/18 20:21, 3月前 , 146F
道有沒有做出來
07/18 20:21, 146F

07/18 21:56, 3月前 , 147F
Zen5這次架構的確沒大改
07/18 21:56, 147F

07/18 21:57, 3月前 , 148F
大改會像Zen2->Zen3那樣 CCX配置、調度都改
07/18 21:57, 148F

07/18 22:00, 3月前 , 149F
這次改進主要是增加執行單元數量、寬度
07/18 22:00, 149F

07/18 22:04, 3月前 , 150F
樓上所言極是,這回Zen5給我的感覺就是
07/18 22:04, 150F

07/18 22:05, 3月前 , 151F
只在AVX512有下功夫這樣
07/18 22:05, 151F

07/18 22:05, 3月前 , 152F
當然執行單元數量、寬度也是有下功夫
07/18 22:05, 152F

07/18 22:38, 3月前 , 153F
先講只有然後當然其他也有,好亂啊XD
07/18 22:38, 153F

07/18 23:04, 3月前 , 154F
因為忘記看到執行單元那些東西了Orz
07/18 23:04, 154F

07/18 23:05, 3月前 , 155F
唉~似乎過了一定年紀就容易忘東忘西的
07/18 23:05, 155F

07/19 02:16, 3月前 , 156F

07/19 02:17, 3月前 , 157F
從之前Ryzen AI 9 365的這一篇偷跑詳測
07/19 02:17, 157F

07/19 02:17, 3月前 , 158F
就可以看出不少Zen5架構的設計方向
07/19 02:17, 158F

07/19 02:18, 3月前 , 159F
雖然他測試的是APU的Strix Point核心
07/19 02:18, 159F

07/19 02:20, 3月前 , 160F
但可看出就是在Zen4現有的架構上去強化
07/19 02:20, 160F

07/19 23:57, 3月前 , 161F
AVX10.2不知啥時才會在消費端看到
07/19 23:57, 161F
※ 編輯: amduser (123.241.108.76 臺灣), 07/20/2024 15:24:53

07/21 02:54, 3月前 , 162F
Zen5 前端改很大啊
07/21 02:54, 162F

07/21 11:13, 3月前 , 163F
給你錢,快點出
07/21 11:13, 163F
文章代碼(AID): #1cbgqedM (PC_Shopping)
文章代碼(AID): #1cbgqedM (PC_Shopping)