英特爾首個Chiplet處理器,正式發(fā)布
Intel Max CPU 系列和 Ponte Vecchio Max GPU 系列
英特爾最近公布了有關其即將推出的至強Max系列CPU和英特爾數據中心GPU Max系列(Ponte Vecchio) 的詳細信息。今天標志著正式啟動。英特爾配備HBM2e的Max CPU型號上市,具有32至56個內核,并基于標準的Sapphire Rapids設計。這些芯片是第一批采用HBM2e內存封裝的x86處理器,從而為處理器提供了更大的64GB本地內存池。HBM內存將有助于處理對內核數量不那么敏感的內存綁定工作負載,因此Max型號的內核數量少于標準型號。目標工作負載包括計算流體動力學、氣候和天氣預報、人工智能訓練和推理、大數據分析、內存數據庫和存儲應用程序。Max CPU可以在多種配置下運行,例如將HBM內存用于所有內存操作(僅HBM-不需要DDR5內存),將HBM呈現為單獨內存區(qū)域的HBM“平面模式”(這需要廣泛的軟件支持),或者在使用HBM2e作為DRAM支持的緩存的HBM“緩存模式”中。后者不需要更改代碼,很可能是最常用的操作模式。Xeon Max CPU將與AMD的EPYC Milan-X處理器相抗衡,后者帶有一個稱為3D V-Cache的3D堆疊L3緩存。Milan-X模型每個芯片具有高達768MB的總L3緩存,可提供令人難以置信的帶寬量,但它提供的容量不如英特爾的HBM2e方法。這兩種方法各有優(yōu)缺點,因此我們迫不及待地想對Xeon Max處理器進行測試。值得注意的是,富士通的A64FX Arm處理器使用了類似的HBM技術。配備HBM的A64FX處理器為Fugaku超級計算機提供動力,該超級計算機多年來一直是世界上最快的(直到去年由AMD驅動的百億億級Frontier接管)。Fugaku仍然保持在Top500的第二位。英特爾還推出了之前代號為Ponte Vecchio 的 Max GPU系列。英特爾此前推出了三種不同的GPU型號,它們均采用標準PCIe和OAM外形規(guī)格。
英特爾傲騰持久內存 (PMem) 300
作為Sapphire Rapids發(fā)布的一部分,英特爾悄悄推出了最后一個系列的傲騰持久內存DIMM。最后一代代號為Crow's Pass 但正式名稱為Intel Optane Persistent Memory 300,將提供128、256和512 GB容量,并以DDR5-4400運行。這比之前的DDR4-3200峰值有了很大的改進,但這也意味著如果Sapphire Rapids系統(tǒng)計劃使用傲騰,則必須將標準內存從支持的DDR5-4800降頻到DDR5-4400。英特爾聲稱300系列在隨機工作負載中提供的順序帶寬增加了56%,帶寬增加了214%,同時支持每個插槽高達4TB的Optane,或系統(tǒng)總容量為6TB。就像上一代Optane 200系列一樣,DIMM的運行功率為15W。但是,他們現在升級到DDR-T2接口和AES-XTS 256位加密。在2015年首次亮相時,英特爾和合作伙伴美光吹捧其底層技術3D XPoint,其性能和耐用性是NAND存儲的1000倍,同時密度是DRAM的10倍,但該技術現在即將走到盡頭。英特爾已經停止生產用于客戶端PC的Optane存儲產品,這是有道理的,因為它是將其NAND業(yè)務出售給SK海力士。然而,英特爾保留了其數據中心的內存業(yè)務,包括其持久內存DIMM ,它可以作為主內存的附件——只有英特爾提供的功能。在300系列模塊之后,這些產品也不會出現任何后代。英特爾將行業(yè)轉向基于CXL的架構作為結束Optane業(yè)務的原因,反映了英特爾前合作伙伴美光去年退出該業(yè)務時的情緒. Sapphire Rapids同時支持Optane DIMM 和CXL接口,但這將是最后一次看到兩者同時出現——CXL將成為未來業(yè)界將奇異存儲器連接到芯片的首選方法。
英特爾延遲交付旗艦芯片的內幕
去年5月,芯片巨頭英特爾的高管桑德拉里維拉 (Sandra Rivera)得到了一些令人震驚的消息。
工程師們花了五年多的時間來開發(fā)一種功能強大的新型微處理器,以在數據中心執(zhí)行計算任務,并且確信他們最終得到了正確的產品。但在討論該項目的例行早會上,出現了潛在嚴重技術缺陷的跡象。這個問題非常麻煩,以至于微處理器的代號Sapphire Rapids不得不推遲發(fā)布——這是英特爾多年來最重要的產品之一遭遇的一系列挫折中的最新一次。“我們非常沮喪,”負責英特爾數據中心和人工智能集團的執(zhí)行副總裁里維拉女士說?!斑@是一個痛苦的決定?!?/span>Sapphire Rapids的發(fā)布時間最終從2022年年中推遲到本周二,比預期晚了近兩年。該產品的長期開發(fā)——在一個封裝中結合了四個芯片——凸顯了在美國試圖確立其在基礎計算機技術領域的主導地位時英特爾扭虧為盈所面臨的一些挑戰(zhàn)。自1970年代以來,英特爾一直是運行大多數電子設備的小硅片領域的領先者,最著名的是一種稱為微處理器的品種,它在大多數計算機中充當電子大腦。但這家硅谷公司近年來失去了在制造技術方面的長期領先優(yōu)勢,而這有助于決定芯片的計算速度。2021年成為英特爾首席執(zhí)行官的帕特里克·蓋爾辛格 ( Patrick Gelsinger ) 誓言要恢復其制造優(yōu)勢并在美國建立新工廠。Sapphire Rapids的坎坷發(fā)展對英特爾能否反彈以按時交付未來芯片具有影響。這是一個可能會影響許多計算機制造商和云服務提供商的問題,更不用說數百萬使用可能由英特爾技術提供支持的在線服務的消費者了。“我們想要的是一個可預測的穩(wěn)定節(jié)奏,”聯想負責服務器銷售的執(zhí)行副總裁柯克斯考根說,這家中國公司計劃推出25個基于新處理器的新系統(tǒng)?!癝apphire Rapids是旅程的開始?!?/span>對英特爾來說,壓力還在。隨著對用于個人電腦的芯片的需求下降,該公司在其最賺錢的業(yè)務服務器芯片方面面臨著激烈的競爭。這個問題令華爾街感到擔憂,自從Gelsinger上任以來,英特爾的市值暴跌超過 1200 億美元。在周二的在線活動中討論以科羅拉多河的一部分命名的Sapphire Rapids,英特爾客戶描述了使用該處理器的計劃,他們表示這將為人工智能任務帶來特別的好處。該產品的正式名稱為第4代英特爾至強可擴展處理器,與至強芯片系列的另一個延遲添加一起推出。該產品以前的代號為 Ponte Vecchio,旨在加速特殊用途的工作,并與Sapphire Rapids一起用于高性能計算機。Gelsinger先生在接受采訪時說,盡管有延誤,但 Sapphire Rapids 已經具備了成功的條件。他在 2021 年選擇里維拉女士接管開發(fā)它的部門,她正在利用經驗教訓改變英特爾設計和測試其產品的方式。他說英特爾已經對Sapphire Rapids發(fā)生的事情進行了幾次內部審查。Sapphire Rapids始于2015年,由一小群英特爾工程師進行討論。該產品是該公司首次嘗試采用新的芯片設計方法。公司現在通常在每塊硅片上封裝數百億個微型晶體管,但像Advanced Micro Devices和其他公司這樣的競爭對手已經開始用塑料封裝中捆綁在一起的多個芯片制造處理器。英特爾工程師提出了一種包含四個裸片的設計,每個裸片都有15個處理器“內核”,就像用于通用計算工作的獨立計算器一樣。該公司還決定為特殊任務(包括人工智能和加密)添加額外的電路塊,并與其他組件通信,例如存儲數據的芯片。共同領導英特爾設計工程團隊的Shlomit Weiss說,這么多元素之間的相互作用“非常復雜”。“復雜性通常會帶來問題?!?/span>Sapphire Rapids團隊努力解決由設計人員錯誤或制造故障引起的缺陷、缺陷,這些缺陷可能導致芯片進行錯誤計算、工作緩慢或停止運行。他們還受到產品制造過程延遲的影響。但月,工程師們達到了一個里程碑,稱為“流片”。那時,包含完整設計的電子文件會被轉移到工廠制作樣品芯片。由于Covid-19迫使封鎖,樣品芯片于2020年初運抵。工程師們很快就讓Sapphire Rapids上的計算核心相互通信,該項目的總工程師Nevine Nassif說。但比預期更多的工作仍然存在。一項關鍵的雜務是“驗證”,這是一個測試過程,英特爾及其客戶在樣本芯片上運行軟件以模擬計算雜務并發(fā)現錯誤。一旦發(fā)現并修復缺陷,設計可能會返回工廠制造新的測試芯片,這通常需要一個多月的時間。重復該過程導致錯過最后期限。Nassif女士說,Sapphire Rapids旨在對抗AMD的Milan處理器,該處理器于2021年3月推出。但到6月它仍未準備就緒,當時英特爾宣布推遲到明年進行更多驗證。就在那時,里維拉女士介入了。這位長期擔任英特爾高管的人在2019年被任命為首席人力資源官之前,已經成功地建立了網絡產品業(yè)務。“我們必須恢復執(zhí)行力,”基辛格先生說?!拔倚枰腥四軌蛲ι矶?,為我解決這個問題。”2021年10月,Rivera女士和一位高級設計主管建立了每周一次的Sapphire Rapids狀態(tài)會議,每周一早上 7 點舉行。她說,這些會議表明在查找和修復錯誤方面取得了穩(wěn)步進展,這增強了人們對2022年第二季度開始生產的信心.然后是去年五月發(fā)現的缺陷。里維拉女士不愿詳細描述,但表示它影響了處理器的性能。6月,她利用一次投資者活動宣布延遲至少四分之一,這將Sapphire Rapids推遲到了11月。“我們已經準備好發(fā)貨了,”納西夫女士說。最后的延遲“考慮到已經付出的所有努力,真是太令人難過了?!?/span>里維拉女士從挫折中看到了一系列教訓。一個原因很簡單,英特爾在Sapphire Rapids中包含了太多的創(chuàng)新,而不是更早地提供一個不那么雄心勃勃的產品。她還得出結論,該團隊應該花更多時間使用計算機模擬來完善和測試其設計。里維拉女士說,在樣品芯片出現錯誤之前發(fā)現錯誤成本較低,并且可以刪除功能以簡化產品。此后,她轉而加強英特爾的模擬和驗證能力。“我們曾經有很多這樣的肌肉,我們任其萎縮,”里維拉女士說?!艾F在我們正在重建?!?/span>她還確定英特爾安排的產品數量超過了其工程師和客戶能夠輕松處理的數量。因此,她簡化了產品路線圖,包括將Sapphire Rapids的繼任者從2023年推遲到2024 年。更廣泛地說,里維拉女士和其他英特爾高管推動該組織開發(fā)更好的流程來記錄技術問題,并在公司內外共享該信息。來源:光刻人的世界*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。