博客專欄

EEPW首頁 > 博客 > 【資訊】Jim keller發(fā)聲:世界憎恨壟斷,GPU不是全部

【資訊】Jim keller發(fā)聲:世界憎恨壟斷,GPU不是全部

發(fā)布人:旺材芯片 時間:2023-08-05 來源:工程師 發(fā)布文章

來源:半導體資訊


當您將開源的力量與傳奇芯片架構師 Jim Keller 廣泛而深入的半導體經驗結合起來時,一定會發(fā)生一些有趣的事情。這正是人工智能初創(chuàng)公司和現在的 CPU 制造商 Tenstorrent 的計劃。


Tenstorrent 由 Ljubisa Bajic、Milos Trajkovic 和 Ivan Hamer 于 2016 年創(chuàng)立,總部位于多倫多。Keller從一開始就是一名天使投資人,也是該公司的顧問,在英特爾服務器業(yè)務工作了一段時間后,他于 2021 年 1 月被任命為首席技術官,在那里他清理了一些架構和流程混亂,就像他之前在 AMD和在英特爾工作時所做的那樣。


圖片


今年 1 月,Keller被任命接替 Bajic 擔任首席執(zhí)行官,該公司今天宣布將在 D 輪融資中籌集 1.2 億至 1.5 億美元,現代汽車集團和三星 Catalyst 基金領投本輪融資,之前的投資者 Fidelity Ventures、Eclipse Ventures、Epiq Capital、Maverick Capital 和其他投資者繼續(xù)參與。


所有這些錢都很有趣,并且有必要支付 Tenstorrent 團隊需要做的大量工程工作,以創(chuàng)建一系列商業(yè)級 RISC-V 服務器處理器和 AI 加速器來匹配它們,更重要的是,論 Nvidia GPU 在 AI 訓練中的霸主地位。幫助公司降低人工智能培訓成本需要資金——也許需要更多資金,也可能不需要。我們所知道的是,Keller認為他擁有合適的團隊來完成這項任務,我們與他討論了 Tenstorrent 任務,后續(xù)我們將深入探討 Tenstorent CPU 和 AI 引擎架構。


Timothy Prickett Morgan(TPM):我們直接切入追逐場景。我一直很想問你這個問題,因為你的答案很重要。為什么我們需要另一個人工智能加速器?


Jim Keller:嗯,世界憎惡壟斷(Well, the world of abhors monopoly)。


TPM:是的,但是我們已經有很多不同的公司參與其中。這些都沒有令我滿意。這并不像 Groq 的人接受了 TPU 的想法,將其商業(yè)化,我們就完成了。它與 MapReduce 和 Yahoo Hadoop 不同。Nirvana Systems 和 Habana Labs 都擁有我認為很好的架構,而英特爾在這兩個方面都沒有取得巨大成功。Graphcore 和 SambaNova 是合理的,Cerebras 具有晶圓級,這很有趣。Esperanto也看上了RISC-V 。據我所知,每個人都面臨著十億美元的問題才能達到新的水平。我知道 RISC-V 很重要,它是硬件領域的 Linux,我們已經等待這一刻很久了,使用 RISC-V 構建加速器是做出架構選擇的簡單部分。


Tenstorrent 正在做的事情有哪些不同、更好的地方?我不希望您今天透露所有建筑方面的知識,但是是什么在推動您,為什么?


Jim Keller:有很多事情。首先,每當出現大的炒作周期時,獲得投資的人都會超出該行業(yè)適當支持的范圍。Tenstorrent 的聯合創(chuàng)始人之一 Ljubisa Bajic 和我聊了很長時間,因為當時 SambaNova 和 Cerebras 的估值非常高。所以他們籌集了很多錢,他們開始花很多錢,而我們卻做了相反的事情。上次融資后我們的估值為 10 億美元,并且我們以更高的估值獲得了更多資金。然后我們想:然后呢?像其他人一樣陷入困境?這對你們公司來說真的很困難。就像這會讓你的員工和投資者都陷入困境。因此,我們以較低的估值籌集了較少的資金,因為我們是長期投資的。


現在,我們已經分析了 Cerebras、Graphcore、SambaNova、Groq 和其他公司正在做的事情,他們都有一些有趣的東西,否則他們不會獲得資助。


你可以說,好吧,我們不會犯這些錯誤,我們有一些東西可以拿出來討論。


我不認為 GPU 是運行人工智能程序的全部(I don’t think GPUs are the be all and end all of how to run AI programs)。每個描述人工智能程序的人都會描述一個圖表,并且需要通過有趣的軟件轉換來降低該圖表并將其映射到硬件。由于多種原因,事實證明這比顯而易見的要困難得多。但我們覺得我們確實在這方面取得了真正的進展。因此,我們可以制造出高性能、運行良好且可擴展的人工智能計算機,我們快到了那個節(jié)點。


另一件事是我們開始構建 RISC-V——我們在 Tenstorrernt 對此進行了長時間的討論——我們認為未來將主要是人工智能。通用 CPU 和 AI 處理器以及程序和軟件堆棧之間將會進行交互,并且它們將位于同一芯片上。然后這個領域將會有很多創(chuàng)新。我打電話給我在 Arm 的好朋友,說我們想要獲得它的許可,但它太貴了,他們不想修改它。因此我們決定打造自己的 RISC-V 處理器。我們在最后一輪籌集了部分資金,理由是 RISC-V 很有趣。


當我們告訴客戶這一點時,我們對人們想要單獨授權 RISC-V 處理器感到有些驚訝——非常驚訝。然后我們還發(fā)現一些對RISC-V感興趣的人也對我們的AI知識產權感興趣。當你觀察 Nvidia、AMD、Habana 等公司的商業(yè)模式時,你會發(fā)現他們并沒有將自己的 IP 授權給任何人。因此,人們來找我們,他們告訴我們,如果我們能夠證明我們的 CPU 或 AI 加速器有效——并且證明是運行的硅——那么他們就有興趣授權 IP(包括 CPU 和 AI 加速器)來構建自己的產品。


構建自己的產品的一個很酷的事情是,您可以擁有并控制它,而不用向其他人支付 60% 或 80% 的毛利率。因此,當人們告訴我們 Nvidia 已經贏了,并問為什么 Tenstorrent 會參與競爭時,那是因為只要存在利潤率極高的壟斷,就會創(chuàng)造商機。


TPM: 這與 Nvidia 控制的 InfiniBand 和超以太網聯盟之間目前正在進行的類似爭論有關。人們一直告訴我,以太網自誕生以來就一直試圖殺死 InfiniBand。我提醒他們,他們不會與 InfiniBand 競爭,因為它正在消亡,而是在兩年半以來第一次它正在蓬勃發(fā)展。數據中心的英特爾 CPU 也是如此。數據中心集團不可能長期保持 50% 的營業(yè)收入。這種利潤不僅會吸引競爭,還會助長競爭。


Jim Keller:在現實世界中,實際毛利率總是介于兩者之間。如果你的比例遠低于 10%,你將很難賺到錢;如果你的比例超過 50%,你就會面臨競爭。


然后是所有這一切的開源角度。開源中一個很酷的事情是人們可以做出貢獻。然后他們也有機會擁有它,或者復制它并做有趣的事情。硬件的生產成本很高,流片也很困難。但有相當多的人構建自己的芯片,他們想要去做一些事情。


這是我的論文:我們將開始用人工智能生成越來越多的代碼,然后人工智能程序是通用計算和人工智能計算之間的交互,這將創(chuàng)造,就像一個全新的創(chuàng)新浪潮。人工智能相當獨特,因為它的模型和框架令人驚訝地開放——然后它在非常專有的硬件上運行。


TPM:很多框架和模型都不是開源的,甚至有時候有商業(yè)限制的,比如LLaMA,或者已經被關閉了,比如從GTP-3、GPT-3.5到GPT-4過渡的OpenAI 。


Jim Keller:是的,并沒有都一帆風順,我同意。


TPM:但我同意,所有這些都存在開放性的因素。我會說類似于幾十年前的關系數據庫。


那么這里就有一個關于開放硬件的問題:當你創(chuàng)建RISC-V處理器時,你是否必須將其全部歸還?許可模式是什么?


Jim Keller:這是我們正在走的路線。RISC-V 是一種開源架構,我們有人為該架構定義做出貢獻。參考模型是開源的,編寫Whisper 指令集模擬器的人為我們工作。我們創(chuàng)建了一個向量單元并做出了貢獻。我們構建了向量單元的 RTL 版本,然后將其開源。我們與一群學生交談,他們說基礎設施很好,但我們需要更多的測試基礎設施。因此,我們正在致力于開源 RTL 驗證基礎設施。


RISC-V 現在擁有大學計算機體系結構研究中心。這是事實,默認的東西。我們的 AI 處理器內部有一個 RISC-V 引擎,我們一直在嘗試弄清楚如何開源 RISC-V AI 處理器。學生希望能夠做實驗;他們希望能夠下載一些東西,模擬它,進行修改,嘗試并改變它。因此,我們的引擎上有一個軟件堆棧,我們正在清理它,以便我們可以開源它,我們將在今年這樣做。然后我們的硬件實現有太多,比如說,硬件中的臟位——你知道,專有的東西。我們正在嘗試弄清楚如何構建一個抽象版本,這是一個非常干凈的 RISC-V AI 處理器。我想開源,因為開源的一個很酷的事情是,一旦人們開始做它并為它做出貢獻,它就會成長。開源是一條單行道,如下所示:


我認為我們在人工智能之旅中只完成了 1% 到 5%。我認為將會有很多實驗正在進行,開源是人們做出貢獻的機會。想象一下,回到五年前,如果有一個開源人工智能引擎。想象一下,如果他們正在做自己的開源事物的隨機版本,但做出回饋,而不是隨機做五十個不起作用的不同事情,情況會怎樣。


TPM:開源的東西起作用了。例如,像 GPT-3。


Jim Keller:嗯,或者說所有這些人組成的網絡產生了一個真正可靠的、有效的 Nvidia 替代方案。


我和很多人工智能公司談過,當我在特斯拉時,我看到了很多引擎。二十家公司,各自招募 50 名員工工作兩年,打造與其他 19 家公司完全相同的產品。如果這是開源開發(fā),那么進展會快得多。


一些開源的東西,比如 PyTorch,已經開放了一段時間了,但是項目運行的方式并不好,但是 PyTorch 2.0 修復了這個問題。TVM 是開源的——我們使用它,它實際上非常好。我們將看看 Chris Lattner 的公司 Modular AI 和 Mojo 編程語言會發(fā)生什么。他說他將開源 Mojo,它可以進行額外的軟件編譯器轉換。但我們并沒有一個明確的目標來驅動某些東西。所以我今天只是和我的同事們討論如何清理我們的參考模型,并使之成為人們可以為其增加價值的良好開源人工智能引擎參考模型?


再一次,我認為我們正處于人工智能硬件構建的早期階段。


TPM:你們的收入模式是什么?我想,你將建造和銷售東西,并且你將獲得許可?


Jim Keller:我們制造硬件。最初的想法是我們要構建這個出色的硬件。去年,我們的前十個模型開始工作。我們原以為我們有可能開發(fā)出 30 到 50 個模型,但我們有點陷入停滯。因此,我們決定重構代碼——我們對軟件堆棧進行了兩次主要重寫。我們現在正在讓一些客戶使用我們構建的硬件。我們與 LG 一起發(fā)布了公告,我們還有更多的人工智能公司正在籌備中。然后我們做了這個RISC-V CPU,這是非常高端的。SiFive 是一家不錯的公司,但他們的項目處于中間位置,Ventana 比這稍高一些。人們不斷告訴我們:我們想要一個非常高端的 CPU。因此,我們正在構建一個非常高端的 CPU,并且我們正在與十個組織討論以獲得許可。


我們是一家設計公司。我們設計CPU,我們設計人工智能引擎,我們設計人工智能軟件堆棧。


因此,無論是軟 IP、硬 IP chiplet還是完整芯片,這些都是實現。我們在這方面很靈活。例如,在 CPU 上,我們將在我們自己的chiplet流片之前對其進行多次許可。我們正在與六家想要從事定制內存芯片或 NPU 加速器等業(yè)務的公司進行交談。我認為對于我們的下一代,無論是 CPU 還是 AI,我們將構建 CPU 和 AI chiplet。但隨后其他人會做其他的小芯片。然后我們會將它們整合到系統(tǒng)中。


TPM:他們將進行組裝和系統(tǒng),而您不感興趣的只是制作一個封裝,然后出售給惠普、戴爾或其他任何人?


Jim Keller:我們會看看會發(fā)生什么。奇怪的是,你真的必須構建它來展示它。人們說,我真的很想建造 10 億個,所以給我看 1,000 個。所以我們建立了一個小型云,我們在云中擁有 1000 個 AI 芯片。當我們剛開始時,我們只是將芯片放入服務器中并為人們提供訪問權限。這真的很容易??梢赃\行 Linux,也可以使用裸機。


TPM:這是我的下一個問題。如果你看看像 Cerebras 和 SambaNova 這樣的公司,他們確實正在成為云供應商或特定云供應商的供應商,尋找利基市場,同時也是一種比 Nvidia 的 GPU 更便宜、更容易完成 AI 的方法。根據我的計算,訓練下一代人工智能模型似乎需要大約 10 億美元,而這筆錢必須來自某個地方,或者必須找到一種更便宜的方法。


Jim Keller:我想說大約一半的人工智能軟件初創(chuàng)公司甚至不知道你可以購買電腦。我們與他們交談,讓他們感興趣,然后他們詢問是否可以在云上嘗試。另一方面,隨著公司規(guī)模的擴大,他們開始意識到,他們在云上運行人工智能所需的費用是在自己的數據中心運行人工智能的三倍或更多——這取決于你購買的產品以及你的攤銷時間。真的很貴。


如果我們設計出一款引人注目的 CPU 和 AI 加速器,那么就有多種進入市場的渠道:IP、chiplet、芯片、系統(tǒng)和云。看起來要證明你在做什么,你必須制造芯片、系統(tǒng)和云來讓人們訪問它。然后關鍵點是,你能否建立一個業(yè)務,建立一個工程團隊,籌集資金并產生收入。我們的投資者大多說,我們不需要你賺十億美元,我們需要出售價值數千萬美元的東西,以表明客戶愿意為此付費——它有效并且他們想要它。這就是我們現在的使命。


我們正在旅途中。我最近告訴某人,當事情不起作用時,你有一個科學項目;當事情順利進行時,你就會遇到電子表格(spreadsheet )問題。電子表格是這樣的。我們當前的芯片采用 Globalfoundries 12 納米工藝。有人說,如果移植到 3 納米,速度會有多快?這并不涉及火箭科學。您了解 GF12 和臺積電 5N、5N 和 3N 的性能,只需將其制成電子表格,然后問:“這是一款引人注目的產品嗎?”


當我開始時,我是否認為我們必須做所有這些事情?不,不是真的。但話又說回來,作為一家銷售全功能計算機的公司,你必須包辦一切,這是否令人驚訝?所以我曾經開玩笑說,當你構建一個產品時,有一個 80/20 規(guī)則,即 20% 的努力就是 80% 的結果。然后是 100% 規(guī)則,即您必須 100% 完成客戶成功所需的事情。(when you build a product, there’s the 80/20 rule, which is 20 percent of the effort is the 80 percent of the results. And then there’s the 100 percent rule, which is you have to do 100 percent of the things that customers need to be successful.)


TPM:在當今時代,公司不必購買所有有趣的東西來看看哪些有效,哪些無效。所以這是一個改進。但無論哪種部署模式,AI訓練的成本都非常高。


Jim Keller:在繁榮周期中總是如此。我曾與多家風投公司交談過,他們表示他們正在為一家人工智能軟件初創(chuàng)公司籌集 5000 萬美元,其中 4000 萬美元最終將流向 Nvidia。當你很著急時,這是一個很好的答案。然后你會想,好吧,我可以花 1000 萬美元從 Tenstorrent 獲得相同的性能,但你必須做更多的工作。然后講錢的時間價值,然后他們現在就花這個錢。但當炒作周期開始消退時,人們開始問為什么他們要花這么多錢買東西?比如,什么是可靠的替代方案?我們如何降低成本?


TPM:你會站在那里。使用 Tenstorrent 芯片可以將 AI 訓練成本降低多少?


Jim Keller:我們的目標是便宜 5 到 10 倍。


TPM: 準確地說,比類似性能的 GPU 系統(tǒng)便宜 5 到 10 倍。


Jim Keller:是的。這有一些技術原因。我們使用的內存帶寬要少得多,因為我們有一個圖形編譯器,而且我們的架構比 GPU 更像是一臺數據流機器,因此我們可以將數據從一個處理元素發(fā)送到另一個處理元素。一旦使用 HBM 硅中介層,它就會變得非常昂貴。現在最瘋狂的事情之一是,如果你看看 Nvidia 在 H100 SXM5 上的標記,就會發(fā)現大部分硅含量都來自三星或 SK 海力士。HBM DRAM 比 Nvidia GPU 芯片更有價值。此外,如果你想構建自己的產品,Nvidia 會向你出售 IP 塊還是為你定制?答案明顯是不?


TPM:您是否有興趣從事網絡工作,或者您只是專注于計算?我希望你能在這里給出正確的答案。


Jim Keller:我們的芯片上有網絡端口,因此我們可以將它們以大型陣列的形式連接在一起,而無需通過其他人的交換機。從技術上講,這就是我們的方法比 Nvidia 的方法更便宜的原因之一。Nvidia 喜歡銷售高利潤的 InfiniBand 交換機。我們在不需要的地方建造了一個盒子。


在目前的情況下,英偉達是一個巨大的利潤創(chuàng)造者。在我們的情況下,我們會問為什么要在幾百個芯片之間放置一個 InfiniBand 交換機?為什么不讓芯片直接相互通信呢?我曾與幾家非??岬拇鎯Τ鮿?chuàng)公司交談過,他們的產品非常有趣,然后他們告訴我他們的使命是獲得非常高的利潤。我告訴他們我們的使命是真正降低成本。你必須選擇你的使命。


因此,如果有人來找我,他們想要獲得我們技術的許可,以便他們可以修改它并構建自己的產品,我認為這是一個好主意,因為我認為當更多的人能夠接受可靠的東西時,創(chuàng)新就會加速,然后繼續(xù)努力。這部分是因為我相信我們會向任何合作伙伴學習。我們有一些非常優(yōu)秀的設計師,我們正在認真考慮我們的下一代。


TPM:那么您如何看待軟銀收購 Arm 之前和軟銀收購之后 Nvidia 追趕它之間的區(qū)別?你想要成為Arm,而不是顛覆(twisted )Arm。


Jim Keller:目前,我們是一家風險投資公司,我們的投資者希望我們的技術能夠發(fā)揮作用,并希望我們的制造和銷售產品的能力得到積極的信號,這正是我們所關注的。


我們剛剛出于兩個不同的原因與三星和現代進行了一輪融資。


三星非常了解我,因為我曾在 Digital Equipment、Apple、Tesla 和 Intel 與他們合作開發(fā)過產品,而且他們都取得了成功。他們對服務器芯片、自動駕駛芯片和人工智能芯片感興趣。因此,RISC-V 將成為收入來源,他們希望對此進行投資。



-End-



*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: GPU

相關推薦

技術專區(qū)

關閉