云巨頭,芯片十年
Annapurna Labs 聯(lián)合創(chuàng)始人 Nafea Bshara 了解半導(dǎo)體并欣賞優(yōu)質(zhì)紅酒。亞馬遜杰出工程師James Hamilton(詹姆斯·漢密爾頓)熱衷于改變行業(yè)的想法,并且喜歡與聰明的企業(yè)家會面。
就這樣,10 年前,即 2013 年秋天,他們來到了西雅圖派克市場歷史悠久的 Virginia Inn 餐廳和酒吧,進行了一場最終改變亞馬遜云業(yè)務(wù)進程的對話。
他們的會面以及亞馬遜最終收購Annapurna Labs ,加速了這家科技巨頭創(chuàng)建自己的處理器的計劃,為其當前人工智能戰(zhàn)略的一個關(guān)鍵組成部分奠定了基礎(chǔ)。
亞馬遜的定制芯片,包括用于先進人工智能的芯片,本周將成為人們關(guān)注的焦點,因為亞馬遜網(wǎng)絡(luò)服務(wù)試圖在拉斯維加斯舉行的re:Invent 會議上表明自己在人工智能新時代的地位。
兩周前,微軟宣布了自己的一對定制芯片,其中包括在 OpenAI 的幫助下設(shè)計的Maia AI Accelerator ,而在這家 ChatGPT 制造商最近陷入混亂之前。微軟將其定制芯片描述為優(yōu)化和最大化其云基礎(chǔ)設(shè)施性能的最終“拼圖”。
在人工智能應(yīng)用中,ChatGPT 已經(jīng)讓亞馬遜緊隨其后,特別是當 OpenAI 的聊天機器人與 Alexa 語音助手的對話能力進行比較時。
正如亞馬遜首席執(zhí)行官安迪·賈西(Andy Jassy)所說,在人工智能的“中間層”中,亞馬遜希望通過 AWS Bedrock 脫穎而出,提供對多種大型語言模型的訪問。
但亞馬遜戰(zhàn)略的基礎(chǔ)是其定制的人工智能芯片Trainium和Inferentia,用于訓(xùn)練和運行大型人工智能模型。
它們是大型云平臺制造自己的芯片的趨勢的一部分,經(jīng)過優(yōu)化,可以在世界各地的數(shù)據(jù)中心以更高的性能和更低的成本運行。盡管微軟剛剛公開了其計劃,但谷歌已經(jīng)開發(fā)了多代張量處理單元,谷歌云將其用于 機器學習工作負載,據(jù)報道,谷歌正在開發(fā) 自己的基于 Arm 的芯片。
在人工智能領(lǐng)域,這些芯片提供了通用芯片的替代品。例如,Jassy 在 8 月份的公司季度財報電話會議上表示,AWS 客戶已經(jīng)接受了 Nvidia 廣泛使用的 H100 GPU,作為亞馬遜 EC2 P5 實例的一部分,用于深度學習和高性能計算。
“然而,迄今為止,市場上只有一種對每個人來說都是可行的選擇,而且供應(yīng)一直很稀缺,”賈西當時補充道?!霸偌由衔覀冞^去幾年積累的芯片專業(yè)知識,促使我們幾年前開始開發(fā)自己的定制人工智能芯片?!?/p>
亞馬遜的人工智能芯片是定制芯片系列的一部分,這一系列可以追溯到十年前 Bshara 和 Hamilton 在角落攤位上的對話。
“這就是未來。”
漢密爾頓是一位廣受尊敬的工程師,擔任亞馬遜高級副總裁,于 2010 年從微軟加入這家云巨頭。他于 2021年被任命為亞馬遜高級領(lǐng)導(dǎo)團隊成員,并繼續(xù)直接向賈西匯報。
漢密爾頓最近回到弗吉尼亞旅館接受 GeekWire 采訪時表示,他最初是在認識到 Amazon S3(簡單存儲服務(wù))在線服務(wù)的潛力后才被亞馬遜吸引的。諷刺的是,在微軟的 Bill Gates 和 Ray Ozzie 讓他針對 S3 編寫一個應(yīng)用程序進行實驗之后,他才意識到這一點。
“我在會議之前收到了這張賬單——7.23 美元。我花了 7.23 美元用于計算、編寫這個應(yīng)用程序并測試它,”他回憶道?!八淖兞宋业纳?。我剛剛意識到,這就是未來?!?/p>
這是云中開發(fā)人員和企業(yè)可以獲得的價格和性能優(yōu)勢的早期跡象。但在亞馬遜工作幾年后,漢密爾頓意識到公司需要再次飛躍。
James Hamilton 出席 2016 年 AWS re:Invent 大會
就在 2013 年與 Bshara 會面前幾周,漢密爾頓為杰夫·貝佐斯和當時的 AWS 首席執(zhí)行官賈西(亞馬遜稱他們?yōu)椤皊ix-pager”)撰寫了一篇內(nèi)部論文,為 AWS 開始開發(fā)自己的定制芯片提供了理由。
“如果我們不制造芯片,我們就會失去創(chuàng)新的控制,”漢密爾頓回憶起當時的想法,并將此舉描述為隨著服務(wù)器過渡到片上系統(tǒng)設(shè)計,公司的下一步自然發(fā)展。
在他看來,亞馬遜需要在芯片層面進行創(chuàng)新,以保持對其基礎(chǔ)設(shè)施和成本的控制;避免在關(guān)鍵服務(wù)器組件方面依賴其他公司;通過將安全性和工作負載優(yōu)化等功能直接構(gòu)建到硬件中,為客戶提供更多價值。
隨著 Arm 處理器在移動和物聯(lián)網(wǎng)設(shè)備中的應(yīng)用量越來越大,Hamilton 相信這將帶來更好的服務(wù)器處理器以及更多的研發(fā)投資。
漢密爾頓工作早起,經(jīng)常在晚上在當?shù)氐木瓢珊筒宛^與初創(chuàng)公司、客戶和供應(yīng)商會面,了解他們的工作情況。當時,他以環(huán)游世界和在船上工作而聞名,他會在辦公室和碼頭之間選擇可以停放自行車的地方。
Bshara 于 2011 年在以色列創(chuàng)辦了 Annapurna Labs,合作伙伴包括 Hrvoye (Billy) Bilic 和芯片設(shè)計公司 Galileo Technologies Ltd 的創(chuàng)始人 Avigdor Willenz。
Annapurna Labs 聯(lián)合創(chuàng)始人 Nafea Bshara 現(xiàn)在是 AWS 副總裁和杰出工程師。
他是由一位共同的朋友介紹給漢密爾頓的,他們同意按照漢密爾頓的傳統(tǒng)一起度過歡樂時光。Bshara 記得在當?shù)氐?UPS 商店打印了一系列幻燈片,然后將自己放在展位上,以免在向漢密爾頓展示時將內(nèi)容透露給餐廳的其他人。
Hamilton 回憶起這家以色列初創(chuàng)公司所做的事情很快就給他留下了深刻的印象,他認識到其設(shè)計有可能成為亞馬遜第二代主力 Nitro 服務(wù)器芯片的基礎(chǔ),該芯片的第一個版本是根據(jù) Cavium 半導(dǎo)體的現(xiàn)有設(shè)計改編的公司。
Bshara 記得 Hamilton 在第一次會議上詢問 Annapurna 是否可以更進一步,開發(fā)基于 Arm 的服務(wù)器處理器。Annapurna Labs聯(lián)合創(chuàng)始人當時立場堅定:市場尚未準備好。
這表明他很現(xiàn)實,而不僅僅是說他認為亞馬遜高級工程師想聽的話。Bshara在會后發(fā)了一封電子郵件,詳細說明了他當時的理由。
這是他們在 Nitro 上最初合作的火花,最終導(dǎo)致亞馬遜在 2015 年以據(jù)稱 3.5 億美元的價格收購了 Annapurna 。亞馬遜表示,目前正在使用的 Nitro 芯片已超過 2000 萬個。
AWS 于 2018 年推出了由 Annapurna 開發(fā)的基于 Arm 的 CPU Graviton。當他們決定制造這款芯片時,Hamilton 提醒 Bshara 當初見面時他對 Arm 服務(wù)器的評價。
“我告訴他,你是對的,”Bshara回憶道,并解釋說市場現(xiàn)在已經(jīng)準備好了。
亞馬遜的優(yōu)勢與挑戰(zhàn)
Annapurna 讓亞馬遜在這個看似走鋼絲的領(lǐng)域取得了早期優(yōu)勢。
Bshara 解釋說,設(shè)計芯片“極其困難——它與軟件不同”?!胺稿e的余地為零。因為如果你有一個錯誤,然后你旋轉(zhuǎn)一個芯片,你就會損失九個月的時間。對于軟件,如果出現(xiàn)錯誤,您可以發(fā)布新版本。在這里,你必須去打印一個新版本?!?/p>
亞馬遜渴望談?wù)撨@段歷史的原因之一是為了反駁人們普遍認為亞馬遜因生成人工智能的興起而措手不及的看法。這將成為本周在拉斯維加斯舉行的 re:Invent 大會上反復(fù)出現(xiàn)的主題,AWS 首席執(zhí)行官 Adam Selipsky 和團隊將展示他們的最新產(chǎn)品和功能。
“我們絕對希望成為運行生成式人工智能的最佳場所,”負責運行 AWS EC2(彈性云計算)的亞馬遜副總裁Dave Brown說道,AWS EC2 是該公司云計算平臺的核心服務(wù)?!爱斈憧紤]客戶想要做什么時,這是一個非常廣泛的領(lǐng)域。”
他表示,即使不使用亞馬遜的 AI 芯片,該公司的 Nitro 處理器在顯著提高通常用于 AI 訓(xùn)練的 Nvidia 支持的 EC2 P5 實例的網(wǎng)絡(luò)吞吐量方面也發(fā)揮著關(guān)鍵作用。
但定制的人工智能芯片使其能夠進行更精細的控制。
“因為我們擁有 Trainium 和 Inferentia 的全部內(nèi)容,所以不存在我們無法一直調(diào)試到硬件的問題,”他說。“我們能夠使用定制芯片大規(guī)模構(gòu)建極其穩(wěn)定的系統(tǒng)。”
CCS Insight首席分析師James Sanders表示,由于涉及的工作負載規(guī)模巨大,定制芯片對于 AWS、Azure 和 Google Cloud 等主要云平臺至關(guān)重要。
“從數(shù)據(jù)中心規(guī)劃的角度來看,只要將盡可能多的 GPU 放入服務(wù)器機架中,就會開始遇到很多麻煩,”他說?!斑@變成了散熱問題,變成了功耗問題。”
與商用芯片相比,定制芯片可以更好地優(yōu)化工作負載、降低功耗并提高安全性。高耗電的 GPU 還具有一些對于 AI 工作負載來說不必要的功能。亞馬遜很早就認識到了這一事實,并在定制人工智能芯片方面憑借 Trainium 和 Inferentia 占據(jù)了先機。
然而,桑德斯表示,軟件方面是一個關(guān)鍵挑戰(zhàn)。
Nvidia 在人工智能領(lǐng)域擁有強大的地位,這要歸功于其用于 GPU 通用計算的軟件平臺 CUDA。這給了英偉達一條護城河。他說,亞馬遜的障礙之一是將人工智能工作負載從 Nvidia GPU 上的 CUDA 移植到亞馬遜芯片上運行。這需要開發(fā)人員付出巨大的努力以及亞馬遜的推廣。
Moor Insights & Strategy首席執(zhí)行官兼首席分析師、AMD 前戰(zhàn)略副總裁帕特里克·穆爾黑德 ( Patrick Moorhead)表示,如果開發(fā)人員局限于使用 CUDA 作為編程語言,那么將現(xiàn)有工作負載從 Nvidia GPU 上移走可能會很困難。他將這一前景描述為“一次非常沉重的提升”。
他說,亞馬遜的軟件抽象層和集成開發(fā)工具可以在啟動新工作負載時簡化這種過渡。
Annapurna 聯(lián)合創(chuàng)始人 Bshara 表示,亞馬遜認識到軟件熟悉度對長期增長的重要性,該公司正在投入大量資源為其 AI 芯片構(gòu)建軟件工具鏈。
“許多客戶將 Trainium 支持視為一種戰(zhàn)略優(yōu)勢,”Bshara 通過電子郵件表示?!拔覀儗蛻羧绱搜杆俚亟邮苓@些芯片感到興奮,并相信工具和支持很快將至少像他們以前使用過的任何芯片架構(gòu)一樣為客戶所使用和熟悉?!?/p>
他表示,該公司的人工智能芯片已被 AirBnB、Snap 和 Sprinklr 等公司大規(guī)模使用,具有明顯的性能和成本優(yōu)勢。
Anthropic 還將根據(jù)他們最近宣布的合作伙伴關(guān)系使用亞馬遜的 AI 芯片,其中亞馬遜將向這家初創(chuàng)公司投資高達 40 億美元,作為與微軟和 OpenAI 的雙雄對抗。
Moorhead 表示,展望未來,亞馬遜面臨的最大挑戰(zhàn)將包括,隨著人工智能模型的需求持續(xù)呈指數(shù)級增長,如何利用最新的芯片架構(gòu)在技術(shù)上保持領(lǐng)先地位;并繼續(xù)大力投資研發(fā),與 Nvidia 和 AMD 等專用芯片公司競爭。
Moorhead 表示,亞馬遜在開發(fā)自己的芯片時冒了很大的風險,但它通過重置半導(dǎo)體行業(yè)并在主要云平臺上引發(fā)新的競爭而獲得了回報?!八麄兣α?,而且也做到了,”他說。“他們確實激勵了其他人效仿?!?/p>
來源:EETOP
--End--
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。