挑戰(zhàn)英偉達！00 后哈佛輟學小哥研發(fā)史上最快 AI 芯片，比 H100 快 20 倍

發(fā)布人：傳感器技術時間：2024-06-27 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

整理 | 鄭麗媛

出品 | CSDN

自 2022 年底以來，在由 ChatGPT 掀起的這場席卷全球的 AI 浪潮中，作為 AI 底層算力“霸主”的英偉達（Nvidia），可謂是最大受益者之一：不久前，英偉達一舉超越微軟和蘋果，以 3.34 萬億美元的市值成為全球最有價值的公司。

歸根結底，是因為英偉達在 AI 芯片市場占據(jù)著近乎壟斷的地位：強大性能的 GPU 產(chǎn)品如 A100 和 H100 芯片，是大模型訓練上的“硬通貨”；CUDA 軟件生態(tài)也幾乎是英偉達的“護城河”。

因此誰也沒想到，敢對著市值超 3 萬億美元、擁有 2.8 萬名員工、處于壟斷地位的英偉達高調(diào)“下戰(zhàn)書”的，會是一支由 3 名大學輟學生創(chuàng)立、目前僅 35 名員工、剛籌集了 1.2 億美元的團隊：Etched。

（圖片來自Etched官網(wǎng)）

ChatGPT 問世前的一場“豪賭”

從網(wǎng)上資料來看，Etched 是由三位哈佛大學輟學生 Gavin Uberti、Robert Wachen 和 Chris Zhu 在 2022 年創(chuàng)立的。

最初，Gavin Uberti 和 Chris Zhu 在大學暑期實習時進入了一家芯片公司，接觸到底層硬件領域并為之吸引后，便決定從哈佛大學退學，又拉上了 Uberti 的大學室友 Robert Wachen，共同創(chuàng)立了 Etched 公司——據(jù)悉，當時 Gavin Uberti 正在攻讀數(shù)學學士學位和計算機科學碩士學位。

（從左到右：Robert Wachen、Gavin Uberti 和 Chris Zhu）

Etched 初步成立后，三位 00 后創(chuàng)始人在 2022 年 6 月、ChatGPT 還未問世前就對 AI 進行了一場“豪賭”：“我們打賭，Transformer 將席卷全球?！?/span>

基于這個設想，他們推測專用 ASIC 芯片（專為特定架構設計的 AI 芯片）是一種必然趨勢。

事實上，當時的 AI 模型種類繁多，有用于自動駕駛汽車的 CNN、用于語言的 RNN，還有用于生成圖像和視頻的 U-Nets 等等。而 Uberti 他們注意到，Transformer（ChatGPT 中的“T”）是第一個可以擴展的模型。

現(xiàn)階段看來，他們似乎（暫時性）賭贏了：如今每一個最先進的 AI 模型都基于 Transformer，包括 ChatGPT、Sora、Gemini、Stable Diffusion 3 等等。

GPU 遭遇瓶頸，唯一方法是 ASIC

如開頭所說，在這場 AI 大模型的全球競賽中，大多數(shù)企業(yè)都離不開 GPU，這也是英偉達能成功壟斷市場的原因之一。

然而，Etched 在博文中指出：這四年來，GPU 本身并沒有多少提升，即芯片單位面積的計算能力（TFLOPS）變動不大，只是芯片面積變得更大了。

不論是英偉達的 B200、AMD 的 MI300，還是英特爾的 Gaudi 3 和亞馬遜的 Trainium2，都是把兩張芯片算作一張，以此實現(xiàn)所謂的“雙倍”性能。

基于這個發(fā)現(xiàn)，Etched 確定了其發(fā)展路線：隨著摩爾定律的放緩，提高芯片性能的唯一方法就是專業(yè)化——但在 ChatGPT 出現(xiàn)之前，Etched 認定的這個方向幾乎沒有市場。

當時，Transformer 還沒風靡全球，許多公司都構建了靈活的 AI 芯片和 GPU 來處理數(shù)百種不同的架構，例如英偉達的 GPUs、Amazon 的 Trainium、AMD 的加速器、Graphcore 的 IPUs、D-Matrix 的 Corsair 和英特爾的 Gaudi 等。

如此背景下，自然沒人想要制造專為特定架構設計的 AI 芯片（ASIC）：Transformer 的市場不大，而芯片項目的成本為 5000 萬至 1 億美元，還需要數(shù)年時間才能投入生產(chǎn)。

但突然之間，ChatGPT 的全球爆火令情況發(fā)生了巨大變化：

（1）前所未有的需求：在 ChatGPT 之前，Transformer 推理的市場約為 5000 萬美元，現(xiàn)在則已達數(shù)十億美元。所有大型科技公司都在使用 Transformer 模型（OpenAI、谷歌、亞馬遜、微軟、Meta 等）。

（2）架構逐漸趨同：AI 模型過去變化很大，但自 GPT-2 以來，最先進的模型架構幾乎保持一致。OpenAI 的 GPT 系列、谷歌的 PaLM、Meta 的 LLaMa、甚至特斯拉的 FSD 都是基于 Transformer。

Etched 聯(lián)合創(chuàng)始人兼 CEO Gavin Uberti 表示：“當 ChatGPT 問世時，英偉達股票大漲，尤其是所有即將推出的 AI 模型都將成為 Transformer 時，我們才發(fā)現(xiàn)自己在正確的時間出現(xiàn)在了正確的地點?！?/span>

誠然如他所說，當模型的訓練成本超過 10 億美元，推理成本超過 100 億美元時，專用芯片就是不可避免的了：在這種規(guī)模下，只要有 1% 的性能改進，都能證明成本為 5000 萬至 1 億美元的芯片項目是值得的。

全球第一款專為 Transformer 設計的專用芯片 Sohu

朝著這個方向，Etched 花了兩年時間，打造出了全球第一款專為 Transformer 設計的專用芯片，名為 Sohu，并于昨日正式官宣：認識一下 Sohu，這是史上最快的 AI 芯片。

據(jù) Gavin Uberti 介紹，Sohu 采用臺積電的 4nm 工藝制造，只有 1 個核心，每張芯片配有 144GB HBM3E 高帶寬內(nèi)存，可提供比 GPU 和其他通用 AI 芯片更好的推理性能，且耗能更少、成本更低。

為了更直觀地衡量 Sohu 的強悍性能，Gavin Uberti 把英偉達作為參照：

在運行文本、圖像和視頻轉換器時，Sohu 的速度比英偉達下一代 Blackwell GB200 GPU 還要快一個數(shù)量級，且成本更低；700 億參數(shù) Llama 3 吞吐量能達到每秒 50 萬 tokens；一臺 8xSohu 服務器可取代 160 個 H100 GPU……對于需要專用芯片的企業(yè)領導者來說，Sohu 將是一個更經(jīng)濟、更高效、更環(huán)保的選擇。

而之所以 Sohu 能實現(xiàn)如此性能，正是因為它的“專用性”：無法運行大多數(shù)傳統(tǒng)的 AI 模型，如為 Instagram 廣告提供動力的 DLRMs、AlphaFold 2 等蛋白質折疊模型、Stable Diffusion 2 等較老的圖像模型，也無法運行 CNN、RNN 或 LSTM——專為 Transformer 設計，只能運行 Transformer。

基于這個特點，作為 ASIC 芯片的 Sohu 在設計之初就直接摒棄了與 Transformer 無關的硬件組件，極大簡化推理硬件和軟件管道，以此最大程度地提高性能。

Etched 在博文中提到，相較之下，通用 AI 芯片如英偉達的 H100，雖擁有 800 億個晶體管，卻只有 3.3% 用于矩陣乘法（大模型推理時最常見的運算）：“這是英偉達和其他靈活的 AI 芯片有意為之的設計決策。如果你想支持所有類型的模型（CNN、LSTM、SSM 和其他），這種方案固然是最好的?！?/span>

Gavin Uberti 指出：“我們無法運行 CNN、RNN、LSTM 和其他 AI 模型，但對于 Transformer 來說，Sohu 就是有史以來最快的芯片，甚至沒有競爭對手?！?/span>

Etched 能否打敗英偉達？

對于能否打敗英偉達這個問題，Etched 首席運營官 Robert Wachen 的回應如下：

“過去，AI 計算市場是分散的，人們使用不同種類的模型，如 CNN、DLRM、LSTM、RNN 和其他數(shù)十種跨領域的模型，每種架構的花費都在數(shù)千萬到數(shù)億美元之間，通用芯片（GPU）有著龐大的市場；但現(xiàn)在，市場正在迅速整合為一種架構：Transformer，那么專用芯片就是大勢所趨。
我們的芯片在大多數(shù)工作負載上都無法擊敗 GPU，因為 Sohu 無法支持它們。但是，對于Transformer 專用芯片來說，我們將會占據(jù)這個市場?！?/span>

除此之外，Thiel Fellowship 主任 Alex Handy 也在一份聲明中表示：“投資 Etched 是對 AI 價值的戰(zhàn)略押注。他們的芯片解決了競爭對手害怕解決的可擴展性問題，也挑戰(zhàn)了同行中普遍存在的性能停滯不前的現(xiàn)象?！?/span>

目前來看，Etched 受到業(yè)界的廣泛關注和許多支持，但正如 Gavin Uberti 所說，這場豪賭還沒有結束：“如果未來 Transformer 消失或被取代了，我們就會死；但如果他繼續(xù)存在，我們就會是有史以來最大的公司?！?/span>

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

挑戰(zhàn)英偉達！00 后哈佛輟學小哥研發(fā)史上最快 AI 芯片，比 H100 快 20 倍

相關推薦

技術專區(qū)

博客專欄

挑戰(zhàn)英偉達！00 后哈佛輟學小哥研發(fā)史上最快 AI 芯片，比 H100 快 20 倍

相關推薦

技術專區(qū)

挑戰(zhàn)英偉達！00 后哈佛輟學小哥研發(fā)史上最快 AI 芯片，比 H100 快 20 倍