不想依賴(lài)英偉達(dá)!微軟發(fā)布兩款自研AI芯片,可訓(xùn)練大模型
11月16日消息,美國(guó)時(shí)間周三,微軟發(fā)布了首款自研人工智能(AI)芯片,可用于訓(xùn)練大語(yǔ)言模型,擺脫對(duì)英偉達(dá)昂貴芯片的依賴(lài)。微軟還為云基礎(chǔ)設(shè)施構(gòu)建了基于Arm架構(gòu)的CPU。這兩款自研芯片旨在為Azure數(shù)據(jù)中心提供動(dòng)力,并幫助該公司及其企業(yè)客戶(hù)準(zhǔn)備迎接AI時(shí)代的到來(lái)。
本文引用地址:http://2s4d.com/article/202311/453015.htm微軟的Azure Maia AI芯片和Arm架構(gòu)Azure Cobalt CPU將于2024年上市。今年,英偉達(dá)的H100 GPU需求激增,這些處理器被廣泛用于訓(xùn)練和運(yùn)行生成圖像工具和大語(yǔ)言模型。這些GPU的需求非常高,甚至在eBay上的售價(jià)超過(guò)了4萬(wàn)美元。
微軟Azure硬件系統(tǒng)和基礎(chǔ)設(shè)施主管拉尼·博卡(Rani Borkar)在接受采訪時(shí)解釋說(shuō):“微軟在芯片開(kāi)發(fā)方面有著悠久的歷史?!痹缭?0多年前,微軟就與人合作開(kāi)發(fā)了Xbox的芯片,甚至還合作設(shè)計(jì)了Surface設(shè)備的芯片。博卡表示:“這些努力都是建立在這些經(jīng)驗(yàn)基礎(chǔ)之上的。2017年,我們開(kāi)始構(gòu)建云硬件堆棧,并開(kāi)啟了這段旅程,使我們走上了構(gòu)建新自研芯片的軌道?!?/p>
新的Azure Maia AI芯片和Azure Cobalt CPU都是由微軟內(nèi)部構(gòu)建的,并對(duì)其整個(gè)云服務(wù)器堆棧進(jìn)行了深度檢修,以?xún)?yōu)化性能、功耗和成本。博卡表示:“我們正在重新考慮人工智能時(shí)代的云基礎(chǔ)設(shè)施,并真正優(yōu)化該基礎(chǔ)設(shè)施的每一層。”
Azure Cobalt CPU以元素“鈷”(鈷藍(lán)是重要的藍(lán)色顏料)命名,是一款128核芯片,基于Arm的Neoverse CSS設(shè)計(jì),并為微軟定制。它旨在為Azure上的通用云服務(wù)提供支持。博卡解釋稱(chēng):“我們花了很多心思,不僅要讓它具有高性能,還要注意到電源管理。為此我們做了許多有意識(shí)的設(shè)計(jì)選擇,包括控制每個(gè)內(nèi)核和每臺(tái)虛擬機(jī)上性能和功耗的能力。”
微軟目前正在測(cè)試Cobalt CPU的工作負(fù)載,如Teams和SQL服務(wù)器,并計(jì)劃明年為客戶(hù)提供各種工作負(fù)載的虛擬機(jī)。雖然博卡沒(méi)有直接將其與亞馬遜在AWS上提供的Graviton 3服務(wù)器進(jìn)行比較,但與微軟目前用于Azure的基于Arm的服務(wù)器相比,應(yīng)該會(huì)有一些明顯的性能提升。博卡表示:“我們的初步測(cè)試表明,我們的性能比目前使用商用Arm服務(wù)器的數(shù)據(jù)中心提高了40%?!?微軟還沒(méi)有分享完整的系統(tǒng)規(guī)格或基準(zhǔn)。
微軟的Maia 100 AI加速器以“昴宿四”(一顆明亮的藍(lán)色恒星,希臘神話(huà)中稱(chēng)為邁亞)命名,專(zhuān)為運(yùn)行云端人工智能工作負(fù)載而設(shè)計(jì),如大語(yǔ)言模型訓(xùn)練和推理。它將用于支持該公司在Azure上某些最大的人工智能工作負(fù)載,包括與OpenAI高達(dá)100多億美元的合作。微軟將為OpenAI的所有工作負(fù)載提供支持。這家軟件巨頭一直在與OpenAI在Maia的設(shè)計(jì)和測(cè)試方面進(jìn)行合作。
OpenAI首席執(zhí)行官薩姆·奧特曼(Sam Altman)說(shuō):“當(dāng)微軟第一次分享他們的Maia芯片設(shè)計(jì)時(shí),我們感到非常興奮。我們一起努力,利用我們的模型來(lái)改進(jìn)和測(cè)試它。Azure的端到端人工智能架構(gòu)現(xiàn)在通過(guò)Maia進(jìn)行了優(yōu)化,為訓(xùn)練更有能力的模型鋪平了道路,并使這些模型對(duì)我們的客戶(hù)來(lái)說(shuō)變得更便宜?!?/p>
Maia采用臺(tái)積電5納米工藝制造,擁有1050億個(gè)晶體管,比AMD的MI300X AI GPU(1530億個(gè)晶體管)少了30%左右。博卡說(shuō):“MAIA支持我們的第一個(gè)8位數(shù)據(jù)類(lèi)型,即MX數(shù)據(jù)類(lèi)型,以便協(xié)同設(shè)計(jì)硬件和軟件,這有助于我們支持更快的模型訓(xùn)練和推理時(shí)間?!?/p>
微軟與AMD、Arm、英特爾、Meta、英偉達(dá)和高通等公司都加入了一個(gè)組織,該組織正在為人工智能模型的下一代數(shù)據(jù)格式制定標(biāo)準(zhǔn)。同時(shí),微軟正在以開(kāi)放計(jì)算項(xiàng)目(OCP)的協(xié)作和開(kāi)放工作為基礎(chǔ),以使整個(gè)系統(tǒng)適應(yīng)人工智能的需求。
博卡透露:“Maia是微軟制造的第一個(gè)完整的液冷服務(wù)器處理器,我們的目標(biāo)是以更高的效率實(shí)現(xiàn)更高的服務(wù)器密度。因?yàn)槲覀冋谥匦聵?gòu)想整個(gè)堆棧,我們特意考慮到了每一層,所以這些系統(tǒng)實(shí)際上也適合我們目前的數(shù)據(jù)中心。”
這對(duì)微軟來(lái)說(shuō)非常關(guān)鍵,因?yàn)樗梢愿斓貑?dòng)這些人工智能服務(wù)器,而不必在世界各地的數(shù)據(jù)中心重新為它們騰出空間。微軟建造了獨(dú)特的機(jī)架用來(lái)放置Maia服務(wù)器主板,并配有名為“助手”的液體冷卻器。它的工作原理就像在汽車(chē)或高檔游戲PC上搭載的散熱器,可以冷卻Maia芯片的表面。
除了共享MX數(shù)據(jù)類(lèi)型,微軟還與合作伙伴共享其機(jī)架設(shè)計(jì),以便他們可以在內(nèi)部有其他芯片的系統(tǒng)上使用它們。但Maia芯片的設(shè)計(jì)不會(huì)被更廣泛地分享,微軟將其保留在內(nèi)部。
Maia 100目前正在GPT 3.5 Turbo上進(jìn)行測(cè)試,該模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微軟正處于部署的早期階段,就像Cobalt一樣,該公司還不愿意發(fā)布確切的Maia規(guī)范或性能基準(zhǔn)。
這使得我們很難準(zhǔn)確解讀Maia將如何與英偉達(dá)廣受歡迎的H100 GPU、最近發(fā)布的H200,甚至AMD最新的MI300X進(jìn)行比較。博卡也不想進(jìn)行比較,而是重申,與英偉達(dá)和AMD的合作對(duì)于Azure人工智能云的未來(lái)仍然非常關(guān)鍵。博卡表示:“在云計(jì)算運(yùn)營(yíng)的規(guī)模下,優(yōu)化和整合堆棧的每一層,以最大限度地提高性能,使供應(yīng)鏈多樣化,并為我們的客戶(hù)提供基礎(chǔ)設(shè)施選擇,這真的非常重要?!?/p>
供應(yīng)鏈的多樣化對(duì)微軟來(lái)說(shuō)同樣重要,尤其是考慮到英偉達(dá)目前是人工智能服務(wù)器芯片的主要供應(yīng)商,而各家公司一直在競(jìng)相購(gòu)買(mǎi)這些芯片。據(jù)估計(jì),為了推進(jìn)ChatGPT的商業(yè)化,OpenAI需要超過(guò)3萬(wàn)個(gè)英偉達(dá)的老款A(yù)100 GPU,而微軟的自研芯片可以幫助其客戶(hù)降低人工智能的成本。微軟還為自己的Azure云工作負(fù)載開(kāi)發(fā)了這些芯片,而不打算將其出售給英偉達(dá)、AMD、英特爾和高通等其他公司。
博卡解釋稱(chēng):“我認(rèn)為這更像是一種互補(bǔ),而不是與他們競(jìng)爭(zhēng)。今天,我們?cè)谠朴?jì)算領(lǐng)域同時(shí)使用英特爾和AMD的芯片。同樣,在人工智能領(lǐng)域,我們也可以同時(shí)使用AMD和英偉達(dá)的芯片。這些合作伙伴對(duì)我們的基礎(chǔ)設(shè)施非常重要,我們真的希望給我們的客戶(hù)選擇?!?/p>
Maia 100和Cobalt 100的命名表明微軟已經(jīng)在設(shè)計(jì)這些芯片的第二代版本。博卡說(shuō):“這是一個(gè)系列,不只是一代就結(jié)束了,但我們不會(huì)分享我們的路線(xiàn)圖。”目前還不清楚微軟多久會(huì)發(fā)布一次Maia和Cobalt的迭代,但考慮到人工智能的發(fā)展速度,如果Maia 100的繼任者以與英偉達(dá)H200相似的速度發(fā)布(大約20個(gè)月),無(wú)需為此感到驚訝。
現(xiàn)在的關(guān)鍵是,微軟將以多快的速度讓Maia運(yùn)行起來(lái),加快推進(jìn)其人工智能雄心,以及這些芯片將如何影響人工智能云服務(wù)的使用定價(jià)。微軟還沒(méi)有準(zhǔn)備好談?wù)撨@款新服務(wù)器的定價(jià),但我們已經(jīng)看到該公司悄悄地推出了針對(duì)Microsoft 365的Copilot,每位用戶(hù)每月收費(fèi)30美元。
目前,Microsoft 365版的Copilot僅限于微軟的大客戶(hù),企業(yè)用戶(hù)必須承諾至少擁有300個(gè)用戶(hù),才能使用這款新的人工智能Office助手。隨著微軟本周推出更多的Copilot功能,并對(duì)Bing Chat進(jìn)行了品牌重塑,Maia可能很快就會(huì)幫助彌補(bǔ)對(duì)支持這些新體驗(yàn)的人工智能芯片的需求。
評(píng)論