[情報] 2022英特爾資料中心繪圖處理器:Ponte Ve

看板PC_Shopping (個人電腦購買)作者 (小魯)時間4年前 (2021/09/08 23:32), 編輯推噓9(1015)
留言16則, 11人參與, 4年前最新討論串1/1
ithome 2022英特爾資料中心繪圖處理器:Ponte Vecchio 結合英特爾、台積電製程技術,打造適用高效能運算與機器學習的單一平臺,將模組化堆 疊擴充架構發揮至極致 在2019年11月的美國超級電腦大會期間,英特爾宣布,他們將基於自行發展的Xe架構,推 出新的通用繪圖處理器(GPU),而為了因應高效能運算的建模與模擬工作負載、機器學 習訓練等應用需求,他們預計推出代號為Ponte Vecchio的獨立GPU,基於Xe架構之餘,也 將導入英特爾7奈米製程,以及Foveros 3D、EMIB封裝技術,當中會集結HBM記憶體、CXL 互連介面等多種技術智財,整合至單一封裝。 英特爾期盼透過這樣的產品,搭配新世代Xeon Scalable系列伺服器處理器,也就是代號 為Sapphire Rapids的產品,以及橫跨多種運算架構的統一程式開發模式:OneAPI,實現 百萬兆級(exascale)運算。當時,他們也宣布美國阿貢國家實驗室Aurora系統,將運用 上述產品來建置運算節點。 隔年8月的英特爾架構日,他們揭露Xe架構更多資訊,例如,細分為4種微架構,而Ponte Vecchio對應的是其中的Xe-HPC微架構,而在封裝方式上,採用Foveros、CO-EMIB等兩種 作法,當中包含多種晶磚(Tile)。 到了今年3月舉行的Intel Unleashed線上發表會(也就是英特爾宣布IDM 2.0策略的那場 活動),執行長Pat Gelsinger首度公開展示Ponte Vecchio晶片。 在6月的歐洲國際超級電腦大會期間,英特爾宣布Ponte Vecchio已過電開機,進入系統驗 證階段,並將提供OCP Accelerator Module(OAM)外形的模組,以及基於4張OAM模組而 成的子系統,以此支援高效能運算應用下的縱向擴展(Scale-up),以及橫向擴展( Scale-out)部署需求。 過了一個月之後,英特爾在他們的Accelerated線上發表會,重申加速製程與封裝創新, 再度提及Ponte Vecchio,並表明這系列將是首款採用EMIB與第二代Foveros封裝技術的產 品。 到了8月,在英特爾召開的年度架構日當中,針對Ponte Vecchio這款資料中心GPU,揭露 更多技術層面的資訊。 例如,他們首度詳細介紹Xe-HPC微架構的組成,以及延展性。在效能方面,以設計定案送 交製造的第一版為例,根據英特爾內部測試,FP32運算效能超過45 TFLOPS,記憶體存取 頻寬達到5 TB/s以上,連結頻寬是2 TB/s以上。若使用ResNet框架來進行推論,每秒可處 理4.3萬張以上的圖片,若使用ResNet進行訓練,每秒可處理3,400張以上的圖片。 Xe-HPC 2-Stack型態的Ponte Vecchio 英特爾頂級資料中心GPU:Ponte Vecchio,今年已在兩個重要場合亮相,一次是3月的 IDM 2.0策略的線上發表會,執行長Pat Gelsinger首度公開展示這款晶片,另一次是英特 爾架構日,負責這項產品的總工程師Masooma Bhaiwala,展示Xe-HPC 2-Stack型態的 Ponte Vecchio。 提供超越競爭對手的運算效能與I/O頻寬 對於Ponte Vecchio運算效能、記憶體頻寬、連結頻寬等規格,英特爾在今年8月英特爾架 構日首度公開相關資訊,就產品賣相來看,相當具有市場競爭力,足以威脅Nvidia這幾年 主推的A100 GPU,甚至是尚未發布的第四代NVLink。圖片來源/英特爾 採用模組化、多晶磚架構,堪稱英特爾最複雜的晶片設計 就晶片設計方式而言,今年英特爾架構日也揭露Ponte Vecchio的特點。它和Sapphire Rapids一樣,也是由多個晶磚(Tile)組合而成,但架構設計上更為複雜,該公司負責這 項產品的總工程師Masooma Bhaiwala,甚至將這項產品評為:「從事晶片建構工作30年以 來,最複雜的晶片」。 簡而言之,這些單元是透過多片EMIB晶磚組裝起來,而能以低耗電、高速的方式,將晶磚 與晶磚之間連結起來,而這群晶磚之後會放在Foveros封裝之中。 Ponte Vecchio本身所使用的晶磚類型也相當豐富,英特爾先前提到有47片之多,但到底 有多少種? 他們也在2021架構日,首度揭露這款系統單晶片架構是由8種元件所組成,分別是:運算 晶磚(Compute Tile)、Rambo晶磚、Forveros、基礎晶磚(Base Tile)、HBM晶磚、Xe Link晶磚、可容納多個晶磚的封裝(Multi Tile Package)、EMIB晶磚。 從產品設計工程的角度來看,Ponte Vecchio這款系統單晶片,使用超過1千億顆電晶體, 裡面放了47片晶磚(Tile),總共使用5種製程,因此,在架構設計上,相當複雜,也突 顯其挑戰性。 提供運算組建區塊,能以層層堆疊方式擴充GPU應用規模 就運算與擴充性而言,Ponte Vecchio不只導入多晶磚式設計,就其採用的Xe-HPC微架構 而言,英特爾目前區分成4種階層式組建區塊(building block),包含:核心(Core) 、片段(Slice)、堆疊(Stack)、連結(Link),並以圖解方式呈現各自的特色,以及 彼此的關係,讓所有人理解GPU規模如何擴充。 Xe-Core 首先是核心,也就是Xe-Core,內含8個向量引擎、8個矩陣引擎(Xe Matrix eXtensions ,XMX),以及號稱業界最大的512 KB容量L1快取記憶體。 Xe-Core當中的每個向量引擎可支援512位元寬度的向量,以此處理整數運算與浮點運算, 若是FP16、FP32、FP64型別,每個週期可分別執行512、256、256個運算。 至於矩陣引擎的部分,每個內建8個脈動陣列(systolic array),而且,在每個運算週 期中,可執行8組512位元寬度的向量處理。 無論是向量引擎或矩陣引擎,都可支援寬型的載入/儲存單元(Load/Restore),每個運 算週期可餵送512 Bytes資料。 Xe-HPC Slice Core往上一層就是Slice,這一層的擴充,包含16個Xe Core、16個光線追蹤單元(Ray Tracing Unit)、1個硬體式脈絡交換處理(Hardware Context)。 基本上,16個Xe Core能為整個Xe-HPC GPU,提供8 MB的L1快取記憶體(16 x 512 KB); 光線追蹤單元包含多種固定功能的計算。 Xe-HPC Stack 串連更多Xe-HPC Slice,即可組成Xe-HPC Stack,事實上,這個階層也等同於一套完整的 GPU。基本上,每1個Xe-HPC Stack,包含了4個Xe-HPC Slice,而此時,也等於坐擁64個 Xe Core、64個光線追蹤單元,以及1個硬體式脈絡交換處理。 這一層還配更大容量的L2快取記憶體(英特爾稱為Xe Memory Fabric),以及4個HBM2e記 憶體控制器、複製引擎(Copy Engine)、媒體引擎(Media Engine),以及8個Xe Link 。 同時,Xe-HPC的架構支援多堆疊式(Multi-Stack)設計,英特爾強調這也是業界首創的 作法。之所以能實現這種方式,主要仰賴的是他們發展的EMIB封裝技術。而且,每一座 Xe-HPC Stack堆疊中的Xe Memory Fabric,可以直接相互連結,如此可促成兩座Xe-HPC Stack之間,能有統合、一致的記憶體。 Xe Link 這項介面可針對GPU對GPU之間的連結,提供高速、一致的I/O交織存取,支援載入/儲存 、大量資料傳輸。 同時,它內建了8埠交換器,可用於單節點、8個完全連結的GPU,而不需要其他元件的協 助。而這個特色也讓用戶能藉此建立有彈性的拓樸。透過圖解的呈現方式,英特爾也逐一 示範單節點的多種GPU連接架構,從最基本的2個GPU,常見的4個GPU,到因應更大型處理 需求的6個GPU、8個GPU。而基於這樣的架構,若要做到縱向擴展,不需要額外元件。 整體而言,無論是Ponte Vecchio或Xe-HPC,就英特爾本次公布的硬體架構設計,以及層 層堆疊的擴充性,的確具有一定的說服力,然而,能否讓市場接受,進而挑戰競爭廠商的 領導地位,關鍵可能在於軟體生態系的健全與開放,以及各種應用場景的拓展。 https://www.ithome.com.tw/tech/146524 備註:英特爾要先鞏固伺服器市場了嗎? 自從Epyc 橫空出世之後吃掉了不少客戶 這次伺服器先跟台積電合作,是要收回原本被吃掉的客戶嗎? 順便為以後的消費及打下基礎吧 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.16.89 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1631115146.A.88A.html

09/08 23:36, 4年前 , 1F
Xe到底怎麼唸啊
09/08 23:36, 1F

09/08 23:40, 4年前 , 2F
XE應該音近Crusade吧
09/08 23:40, 2F

09/08 23:41, 4年前 , 3F
插伊
09/08 23:41, 3F

09/09 00:04, 4年前 , 4F
大招放完了
09/09 00:04, 4F

09/09 00:08, 4年前 , 5F
對手是老黃的DPU
09/09 00:08, 5F

09/09 01:01, 4年前 , 6F
可是那個阿貢實驗室不是因為等不及
09/09 01:01, 6F

09/09 01:01, 4年前 , 7F
所以用現貨組了嗎
09/09 01:01, 7F

09/09 02:01, 4年前 , 8F
所以這些是要用在未來的DC
09/09 02:01, 8F

09/09 04:27, 4年前 , 9F
I只剩發新聞稿的能力惹嗎?
09/09 04:27, 9F

09/09 06:34, 4年前 , 10F
Xe intel自己是直接念X E
09/09 06:34, 10F

09/09 07:22, 4年前 , 11F
樓上讓我想到NV的Ti,3080Ti發布的
09/09 07:22, 11F

09/09 07:22, 4年前 , 12F
時候NV的人念3080太
09/09 07:22, 12F

09/09 08:32, 4年前 , 13F
09/09 08:32, 13F

09/09 08:56, 4年前 , 14F
Geforce 2 Ti出來時就念鈦了 不是現
09/09 08:56, 14F

09/09 08:57, 4年前 , 15F
在才這樣念 一堆youtuber不知道為
09/09 08:57, 15F

09/09 08:57, 4年前 , 16F
什麼分開唸...
09/09 08:57, 16F
文章代碼(AID): #1XEDUAYA (PC_Shopping)
文章代碼(AID): #1XEDUAYA (PC_Shopping)