挑戰(zhàn)英偉達!00 后哈佛輟學小哥研發(fā)史上最快 AI 芯片,比 H100 快 20 倍
出品 | CSDN
自 2022 年底以來,在由 ChatGPT 掀起的這場席卷全球的 AI 浪潮中,作為 AI 底層算力“霸主”的英偉達(Nvidia),可謂是最大受益者之一:不久前,英偉達一舉超越微軟和蘋果,以 3.34 萬億美元的市值成為全球最有價值的公司。
歸根結底,是因為英偉達在 AI 芯片市場占據(jù)著近乎壟斷的地位:強大性能的 GPU 產(chǎn)品如 A100 和 H100 芯片,是大模型訓練上的“硬通貨”;CUDA 軟件生態(tài)也幾乎是英偉達的“護城河”。
因此誰也沒想到,敢對著市值超 3 萬億美元、擁有 2.8 萬名員工、處于壟斷地位的英偉達高調(diào)“下戰(zhàn)書”的,會是一支由 3 名大學輟學生創(chuàng)立、目前僅 35 名員工、剛籌集了 1.2 億美元的團隊:Etched。
(圖片來自Etched官網(wǎng))
ChatGPT 問世前的一場“豪賭”
從網(wǎng)上資料來看,Etched 是由三位哈佛大學輟學生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年創(chuàng)立的。
最初,Gavin Uberti 和 Chris Zhu 在大學暑期實習時進入了一家芯片公司,接觸到底層硬件領域并為之吸引后,便決定從哈佛大學退學,又拉上了 Uberti 的大學室友 Robert Wachen,共同創(chuàng)立了 Etched 公司——據(jù)悉,當時 Gavin Uberti 正在攻讀數(shù)學學士學位和計算機科學碩士學位。
(從左到右:Robert Wachen、Gavin Uberti 和 Chris Zhu)
Etched 初步成立后,三位 00 后創(chuàng)始人在 2022 年 6 月、ChatGPT 還未問世前就對 AI 進行了一場“豪賭”:“我們打賭,Transformer 將席卷全球?!?/span>
基于這個設想,他們推測專用 ASIC 芯片(專為特定架構設計的 AI 芯片)是一種必然趨勢。
事實上,當時的 AI 模型種類繁多,有用于自動駕駛汽車的 CNN、用于語言的 RNN,還有用于生成圖像和視頻的 U-Nets 等等。而 Uberti 他們注意到,Transformer(ChatGPT 中的“T”)是第一個可以擴展的模型。
現(xiàn)階段看來,他們似乎(暫時性)賭贏了:如今每一個最先進的 AI 模型都基于 Transformer,包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。
GPU 遭遇瓶頸,唯一方法是 ASIC
如開頭所說,在這場 AI 大模型的全球競賽中,大多數(shù)企業(yè)都離不開 GPU,這也是英偉達能成功壟斷市場的原因之一。
然而,Etched 在博文中指出:這四年來,GPU 本身并沒有多少提升,即芯片單位面積的計算能力(TFLOPS)變動不大,只是芯片面積變得更大了。
不論是英偉達的 B200、AMD 的 MI300,還是英特爾的 Gaudi 3 和亞馬遜的 Trainium2,都是把兩張芯片算作一張,以此實現(xiàn)所謂的“雙倍”性能。
基于這個發(fā)現(xiàn),Etched 確定了其發(fā)展路線:隨著摩爾定律的放緩,提高芯片性能的唯一方法就是專業(yè)化——但在 ChatGPT 出現(xiàn)之前,Etched 認定的這個方向幾乎沒有市場。
當時,Transformer 還沒風靡全球,許多公司都構建了靈活的 AI 芯片和 GPU 來處理數(shù)百種不同的架構,例如英偉達的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特爾的 Gaudi 等。
如此背景下,自然沒人想要制造專為特定架構設計的 AI 芯片(ASIC):Transformer 的市場不大,而芯片項目的成本為 5000 萬至 1 億美元,還需要數(shù)年時間才能投入生產(chǎn)。
但突然之間,ChatGPT 的全球爆火令情況發(fā)生了巨大變化:
(1)前所未有的需求:在 ChatGPT 之前,Transformer 推理的市場約為 5000 萬美元,現(xiàn)在則已達數(shù)十億美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Meta 等)。
(2)架構逐漸趨同:AI 模型過去變化很大,但自 GPT-2 以來,最先進的模型架構幾乎保持一致。OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、甚至特斯拉的 FSD 都是基于 Transformer。
Etched 聯(lián)合創(chuàng)始人兼 CEO Gavin Uberti 表示:“當 ChatGPT 問世時,英偉達股票大漲,尤其是所有即將推出的 AI 模型都將成為 Transformer 時,我們才發(fā)現(xiàn)自己在正確的時間出現(xiàn)在了正確的地點?!?/span>
誠然如他所說,當模型的訓練成本超過 10 億美元,推理成本超過 100 億美元時,專用芯片就是不可避免的了:在這種規(guī)模下,只要有 1% 的性能改進,都能證明成本為 5000 萬至 1 億美元的芯片項目是值得的。
全球第一款專為 Transformer 設計的專用芯片 Sohu
朝著這個方向,Etched 花了兩年時間,打造出了全球第一款專為 Transformer 設計的專用芯片,名為 Sohu,并于昨日正式官宣:認識一下 Sohu,這是史上最快的 AI 芯片。
據(jù) Gavin Uberti 介紹,Sohu 采用臺積電的 4nm 工藝制造,只有 1 個核心,每張芯片配有 144GB HBM3E 高帶寬內(nèi)存,可提供比 GPU 和其他通用 AI 芯片更好的推理性能,且耗能更少、成本更低。
為了更直觀地衡量 Sohu 的強悍性能,Gavin Uberti 把英偉達作為參照:
在運行文本、圖像和視頻轉換器時,Sohu 的速度比英偉達下一代 Blackwell GB200 GPU 還要快一個數(shù)量級,且成本更低;700 億參數(shù) Llama 3 吞吐量能達到每秒 50 萬 tokens;一臺 8xSohu 服務器可取代 160 個 H100 GPU……對于需要專用芯片的企業(yè)領導者來說,Sohu 將是一個更經(jīng)濟、更高效、更環(huán)保的選擇。
而之所以 Sohu 能實現(xiàn)如此性能,正是因為它的“專用性”:無法運行大多數(shù)傳統(tǒng)的 AI 模型,如為 Instagram 廣告提供動力的 DLRMs、AlphaFold 2 等蛋白質折疊模型、Stable Diffusion 2 等較老的圖像模型,也無法運行 CNN、RNN 或 LSTM——專為 Transformer 設計,只能運行 Transformer。
基于這個特點,作為 ASIC 芯片的 Sohu 在設計之初就直接摒棄了與 Transformer 無關的硬件組件,極大簡化推理硬件和軟件管道,以此最大程度地提高性能。
Etched 在博文中提到,相較之下,通用 AI 芯片如英偉達的 H100,雖擁有 800 億個晶體管,卻只有 3.3% 用于矩陣乘法(大模型推理時最常見的運算):“這是英偉達和其他靈活的 AI 芯片有意為之的設計決策。如果你想支持所有類型的模型(CNN、LSTM、SSM 和其他),這種方案固然是最好的?!?/span>
Gavin Uberti 指出:“我們無法運行 CNN、RNN、LSTM 和其他 AI 模型,但對于 Transformer 來說,Sohu 就是有史以來最快的芯片,甚至沒有競爭對手?!?/span>
Etched 能否打敗英偉達?
對于能否打敗英偉達這個問題,Etched 首席運營官 Robert Wachen 的回應如下:
“過去,AI 計算市場是分散的,人們使用不同種類的模型,如 CNN、DLRM、LSTM、RNN 和其他數(shù)十種跨領域的模型,每種架構的花費都在數(shù)千萬到數(shù)億美元之間,通用芯片(GPU)有著龐大的市場;但現(xiàn)在,市場正在迅速整合為一種架構:Transformer,那么專用芯片就是大勢所趨。
我們的芯片在大多數(shù)工作負載上都無法擊敗 GPU,因為 Sohu 無法支持它們。但是,對于Transformer 專用芯片來說,我們將會占據(jù)這個市場?!?/span>
除此之外,Thiel Fellowship 主任 Alex Handy 也在一份聲明中表示:“投資 Etched 是對 AI 價值的戰(zhàn)略押注。他們的芯片解決了競爭對手害怕解決的可擴展性問題,也挑戰(zhàn)了同行中普遍存在的性能停滯不前的現(xiàn)象?!?/span>
目前來看,Etched 受到業(yè)界的廣泛關注和許多支持,但正如 Gavin Uberti 所說,這場豪賭還沒有結束:“如果未來 Transformer 消失或被取代了,我們就會死;但如果他繼續(xù)存在,我們就會是有史以來最大的公司?!?/span>
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。