博客專欄

EEPW首頁 > 博客 > 挑戰(zhàn)英偉達(dá)!00 后哈佛輟學(xué)小哥研發(fā)史上最快 AI 芯片,比 H100 快 20 倍

挑戰(zhàn)英偉達(dá)!00 后哈佛輟學(xué)小哥研發(fā)史上最快 AI 芯片,比 H100 快 20 倍

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-06-27 來源:工程師 發(fā)布文章
整理 | 鄭麗媛

出品 | CSDN 

自 2022 年底以來,在由 ChatGPT 掀起的這場(chǎng)席卷全球的 AI 浪潮中,作為 AI 底層算力“霸主”的英偉達(dá)(Nvidia),可謂是最大受益者之一:不久前,英偉達(dá)一舉超越微軟和蘋果,以 3.34 萬億美元的市值成為全球最有價(jià)值的公司。

歸根結(jié)底,是因?yàn)橛ミ_(dá)在 AI 芯片市場(chǎng)占據(jù)著近乎壟斷的地位:強(qiáng)大性能的 GPU 產(chǎn)品如 A100 和 H100 芯片,是大模型訓(xùn)練上的“硬通貨”;CUDA 軟件生態(tài)也幾乎是英偉達(dá)的“護(hù)城河”。

因此誰也沒想到,敢對(duì)著市值超 3 萬億美元、擁有 2.8 萬名員工、處于壟斷地位的英偉達(dá)高調(diào)“下戰(zhàn)書”的,會(huì)是一支由 3 名大學(xué)輟學(xué)生創(chuàng)立、目前僅 35 名員工、剛籌集了 1.2 億美元的團(tuán)隊(duì):Etched。

圖片

(圖片來自Etched官網(wǎng))

圖片

ChatGPT 問世前的一場(chǎng)“豪賭”

從網(wǎng)上資料來看,Etched 是由三位哈佛大學(xué)輟學(xué)生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年創(chuàng)立的。

最初,Gavin Uberti 和 Chris Zhu 在大學(xué)暑期實(shí)習(xí)時(shí)進(jìn)入了一家芯片公司,接觸到底層硬件領(lǐng)域并為之吸引后,便決定從哈佛大學(xué)退學(xué),又拉上了 Uberti 的大學(xué)室友 Robert Wachen,共同創(chuàng)立了 Etched 公司——據(jù)悉,當(dāng)時(shí) Gavin Uberti 正在攻讀數(shù)學(xué)學(xué)士學(xué)位和計(jì)算機(jī)科學(xué)碩士學(xué)位。

圖片

(從左到右:Robert Wachen、Gavin Uberti 和 Chris Zhu)

Etched 初步成立后,三位 00 后創(chuàng)始人在 2022 年 6 月、ChatGPT 還未問世前就對(duì) AI 進(jìn)行了一場(chǎng)“豪賭”:“我們打賭,Transformer 將席卷全球?!?/span>

基于這個(gè)設(shè)想,他們推測(cè)專用 ASIC 芯片(專為特定架構(gòu)設(shè)計(jì)的 AI 芯片)是一種必然趨勢(shì)。

事實(shí)上,當(dāng)時(shí)的 AI 模型種類繁多,有用于自動(dòng)駕駛汽車的 CNN、用于語言的 RNN,還有用于生成圖像和視頻的 U-Nets 等等。而 Uberti 他們注意到,Transformer(ChatGPT 中的“T”)是第一個(gè)可以擴(kuò)展的模型。

現(xiàn)階段看來,他們似乎(暫時(shí)性)賭贏了:如今每一個(gè)最先進(jìn)的 AI 模型都基于 Transformer,包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。

圖片

GPU 遭遇瓶頸,唯一方法是 ASIC

如開頭所說,在這場(chǎng) AI 大模型的全球競(jìng)賽中,大多數(shù)企業(yè)都離不開 GPU,這也是英偉達(dá)能成功壟斷市場(chǎng)的原因之一。

然而,Etched 在博文中指出:這四年來,GPU 本身并沒有多少提升,即芯片單位面積的計(jì)算能力(TFLOPS)變動(dòng)不大,只是芯片面積變得更大了。

圖片

不論是英偉達(dá)的 B200、AMD 的 MI300,還是英特爾的 Gaudi 3 和亞馬遜的 Trainium2,都是把兩張芯片算作一張,以此實(shí)現(xiàn)所謂的“雙倍”性能。

圖片

基于這個(gè)發(fā)現(xiàn),Etched 確定了其發(fā)展路線:隨著摩爾定律的放緩,提高芯片性能的唯一方法就是專業(yè)化——但在 ChatGPT 出現(xiàn)之前,Etched 認(rèn)定的這個(gè)方向幾乎沒有市場(chǎng)。

當(dāng)時(shí),Transformer 還沒風(fēng)靡全球,許多公司都構(gòu)建了靈活的 AI 芯片和 GPU 來處理數(shù)百種不同的架構(gòu),例如英偉達(dá)的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特爾的 Gaudi 等。

如此背景下,自然沒人想要制造專為特定架構(gòu)設(shè)計(jì)的 AI 芯片(ASIC):Transformer 的市場(chǎng)不大,而芯片項(xiàng)目的成本為 5000 萬至 1 億美元,還需要數(shù)年時(shí)間才能投入生產(chǎn)。

但突然之間,ChatGPT 的全球爆火令情況發(fā)生了巨大變化:

(1)前所未有的需求:在 ChatGPT 之前,Transformer 推理的市場(chǎng)約為 5000 萬美元,現(xiàn)在則已達(dá)數(shù)十億美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Meta 等)。

圖片

(2)架構(gòu)逐漸趨同:AI 模型過去變化很大,但自 GPT-2 以來,最先進(jìn)的模型架構(gòu)幾乎保持一致。OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、甚至特斯拉的 FSD 都是基于 Transformer。

圖片

Etched 聯(lián)合創(chuàng)始人兼 CEO Gavin Uberti 表示:“當(dāng) ChatGPT 問世時(shí),英偉達(dá)股票大漲,尤其是所有即將推出的 AI 模型都將成為 Transformer 時(shí),我們才發(fā)現(xiàn)自己在正確的時(shí)間出現(xiàn)在了正確的地點(diǎn)?!?/span>

誠(chéng)然如他所說,當(dāng)模型的訓(xùn)練成本超過 10 億美元,推理成本超過 100 億美元時(shí),專用芯片就是不可避免的了:在這種規(guī)模下,只要有 1% 的性能改進(jìn),都能證明成本為 5000 萬至 1 億美元的芯片項(xiàng)目是值得的。

圖片

全球第一款專為 Transformer 設(shè)計(jì)的專用芯片 Sohu

朝著這個(gè)方向,Etched 花了兩年時(shí)間,打造出了全球第一款專為 Transformer 設(shè)計(jì)的專用芯片,名為 Sohu,并于昨日正式官宣:認(rèn)識(shí)一下 Sohu,這是史上最快的 AI 芯片。

圖片

據(jù) Gavin Uberti 介紹,Sohu 采用臺(tái)積電的 4nm 工藝制造,只有 1 個(gè)核心,每張芯片配有 144GB HBM3E 高帶寬內(nèi)存,可提供比 GPU 和其他通用 AI 芯片更好的推理性能,且耗能更少、成本更低。

為了更直觀地衡量 Sohu 的強(qiáng)悍性能,Gavin Uberti 把英偉達(dá)作為參照:

在運(yùn)行文本、圖像和視頻轉(zhuǎn)換器時(shí),Sohu 的速度比英偉達(dá)下一代 Blackwell GB200 GPU 還要快一個(gè)數(shù)量級(jí),且成本更低;700 億參數(shù) Llama 3 吞吐量能達(dá)到每秒 50 萬 tokens;一臺(tái) 8xSohu 服務(wù)器可取代 160 個(gè) H100 GPU……對(duì)于需要專用芯片的企業(yè)領(lǐng)導(dǎo)者來說,Sohu 將是一個(gè)更經(jīng)濟(jì)、更高效、更環(huán)保的選擇。

圖片

而之所以 Sohu 能實(shí)現(xiàn)如此性能,正是因?yàn)樗摹皩S眯浴保簾o法運(yùn)行大多數(shù)傳統(tǒng)的 AI 模型,如為 Instagram 廣告提供動(dòng)力的 DLRMs、AlphaFold 2 等蛋白質(zhì)折疊模型、Stable Diffusion 2 等較老的圖像模型,也無法運(yùn)行 CNN、RNN 或 LSTM——專為 Transformer 設(shè)計(jì),只能運(yùn)行 Transformer。

基于這個(gè)特點(diǎn),作為 ASIC 芯片的 Sohu 在設(shè)計(jì)之初就直接摒棄了與 Transformer 無關(guān)的硬件組件,極大簡(jiǎn)化推理硬件和軟件管道,以此最大程度地提高性能。

Etched 在博文中提到,相較之下,通用 AI 芯片如英偉達(dá)的 H100,雖擁有 800 億個(gè)晶體管,卻只有 3.3% 用于矩陣乘法(大模型推理時(shí)最常見的運(yùn)算):“這是英偉達(dá)和其他靈活的 AI 芯片有意為之的設(shè)計(jì)決策。如果你想支持所有類型的模型(CNN、LSTM、SSM 和其他),這種方案固然是最好的?!?/span>

Gavin Uberti 指出:“我們無法運(yùn)行 CNN、RNN、LSTM 和其他 AI 模型,但對(duì)于 Transformer 來說,Sohu 就是有史以來最快的芯片,甚至沒有競(jìng)爭(zhēng)對(duì)手。”

圖片

Etched 能否打敗英偉達(dá)?

對(duì)于能否打敗英偉達(dá)這個(gè)問題,Etched 首席運(yùn)營(yíng)官 Robert Wachen 的回應(yīng)如下:

“過去,AI 計(jì)算市場(chǎng)是分散的,人們使用不同種類的模型,如 CNN、DLRM、LSTM、RNN 和其他數(shù)十種跨領(lǐng)域的模型,每種架構(gòu)的花費(fèi)都在數(shù)千萬到數(shù)億美元之間,通用芯片(GPU)有著龐大的市場(chǎng);但現(xiàn)在,市場(chǎng)正在迅速整合為一種架構(gòu):Transformer,那么專用芯片就是大勢(shì)所趨。

我們的芯片在大多數(shù)工作負(fù)載上都無法擊敗 GPU,因?yàn)?Sohu 無法支持它們。但是,對(duì)于Transformer 專用芯片來說,我們將會(huì)占據(jù)這個(gè)市場(chǎng)?!?/span>

除此之外,Thiel Fellowship 主任 Alex Handy 也在一份聲明中表示:“投資 Etched 是對(duì) AI 價(jià)值的戰(zhàn)略押注。他們的芯片解決了競(jìng)爭(zhēng)對(duì)手害怕解決的可擴(kuò)展性問題,也挑戰(zhàn)了同行中普遍存在的性能停滯不前的現(xiàn)象?!?/span>

目前來看,Etched 受到業(yè)界的廣泛關(guān)注和許多支持,但正如 Gavin Uberti 所說,這場(chǎng)豪賭還沒有結(jié)束:“如果未來 Transformer 消失或被取代了,我們就會(huì)死;但如果他繼續(xù)存在,我們就會(huì)是有史以來最大的公司。”


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達(dá)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉