特斯拉，“偽裝”成車企的AI芯片公司？

發(fā)布人：晴朗雨時間：2023-06-29 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近日，知名半導(dǎo)體分析機(jī)構(gòu)Semianalysis作者Dylan Patel對特斯拉在AI芯片和云服務(wù)、大數(shù)據(jù)搜集和AI訓(xùn)練方面的布局做了深入分析。

文章認(rèn)為，特斯拉志在成為全球領(lǐng)先的人工智能公司之一。迄今為止，特斯拉也許在自動駕駛領(lǐng)域的技術(shù)并不是最先進(jìn)的，Alphabet旗下的Waymo技術(shù)被公認(rèn)為最為先進(jìn)的技術(shù)。此外，特斯拉在生成式人工智能領(lǐng)域的涉足較少。然而，特斯拉擁有數(shù)據(jù)收集能力、專用計算能力、創(chuàng)新文化和頂尖的AI研究人員，這些或許是其在自動駕駛車輛和機(jī)器人領(lǐng)域?qū)崿F(xiàn)跨越式發(fā)展的秘訣。

特斯拉在算力方面的提升

目前，特斯拉在內(nèi)部的AI基礎(chǔ)設(shè)施非常有限，只有大約4000個V100顯卡和16000個A100顯卡。與世界上其他大型科技公司相比，這個數(shù)字非常小，因?yàn)橄裎④浐蚆eta這樣的公司擁有超過10萬個GPU，而且他們計劃在中短期內(nèi)將這個數(shù)字翻倍。特斯拉AI基礎(chǔ)設(shè)施的薄弱部分是由于其內(nèi)部訓(xùn)練芯片“D1”的多次延誤。

然而，現(xiàn)在情況正在迅速改變。

特斯拉將在1.5年內(nèi)大幅提升了其AI能力，預(yù)計增長規(guī)模超過10倍。其中一個原因是提升自身能力，但也有一個很重要的原因是為了X.AI公司的發(fā)展。Semianalysis按季度進(jìn)行單位估算，深入探討特斯拉的AI產(chǎn)能、H100和Dojo芯片的情況，以及特斯拉因其模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施和邊緣推理（包括HW 4.0芯片）產(chǎn)生的獨(dú)特需求，而且還討論了X.AI公司的發(fā)展現(xiàn)狀，X.AI是OpenAI的競爭對手，而馬斯克從OpenAI挖走了許多著名的工程師。

D1訓(xùn)練芯片的發(fā)展曲折又艱辛，從設(shè)計到供電方面都遇到了問題，然而現(xiàn)在特斯拉聲稱已經(jīng)準(zhǔn)備好公開展示該芯片，并開始進(jìn)行批量生產(chǎn)。文章認(rèn)為，自2016年以來，特斯拉一直在為其汽車設(shè)計內(nèi)部的AI芯片，并在2018年開始為數(shù)據(jù)中心應(yīng)用設(shè)計芯片。

在芯片發(fā)布之前，Semianalysis獨(dú)家披露了他們所使用的特殊封裝技術(shù)，這項技術(shù)被稱為InFO SoW，一個與晶圓大小相當(dāng)?shù)纳瘸龇庋b技術(shù)。原則上類似于Cerebras公司的做法，但優(yōu)點(diǎn)是可以進(jìn)行可靠的芯片測試。這是特斯拉架構(gòu)中最獨(dú)特和有趣的方面，因?yàn)?5個芯片被集成到這個InFO-SoW中，并且沒有直接連接存儲器。

Semianalysis還在2021年更詳細(xì)地討論了特斯拉芯片架構(gòu)的優(yōu)缺點(diǎn)。當(dāng)時是因?yàn)樾酒系膬?nèi)存容量不足，特斯拉不得不制作另一款芯片。

特斯拉本應(yīng)在2022年多次擴(kuò)大產(chǎn)能，但由于芯片材料和系統(tǒng)問題，始終未能實(shí)現(xiàn)這一目標(biāo)?，F(xiàn)在已經(jīng)是2023年年中，產(chǎn)能終于開始提升。這種芯片架構(gòu)非常適合特斯拉獨(dú)特的應(yīng)用場景，但值得注意的是，它并不適用于對內(nèi)存帶寬限制嚴(yán)重的LLM（低延遲內(nèi)存）。

文章指出，特斯拉之所以獨(dú)特，是因?yàn)樗麄儽仨殞Ｗ⒂趫D像網(wǎng)絡(luò)。因此，他們的架構(gòu)差異很大。Semianalysis之前曾討論過深度學(xué)習(xí)推薦網(wǎng)絡(luò)和基于Transformer的語言模型需要非常不同的架構(gòu)設(shè)計。圖像/視頻識別網(wǎng)絡(luò)還需要不同的計算、芯片內(nèi)通信、芯片內(nèi)存和芯片外存儲的組合。

在訓(xùn)練過程中，這些卷積模型在GPU上的利用率非常低。隨著英偉達(dá)下一代產(chǎn)品對Transformer模型進(jìn)行進(jìn)一步優(yōu)化，特斯拉對卷積模型的差異化、優(yōu)化架構(gòu)的投資有望取得顯著進(jìn)展，這些圖像網(wǎng)絡(luò)必須符合特斯拉推斷基礎(chǔ)設(shè)施的限制。

訓(xùn)練芯片雖然是由臺積電制造的，但在特斯拉電動汽車內(nèi)運(yùn)行人工智能推理的芯片被稱為全自動駕駛（FSD）芯片。特斯拉車輛上的模型非常有限，因?yàn)樘厮估瓐孕潘麄儾恍枰谲囕v中擁有巨大的性能來實(shí)現(xiàn)全自動駕駛。此外，與Waymo和Cruise相比，特斯拉的成本限制更加嚴(yán)格，因?yàn)樗麄儗?shí)際上發(fā)貨量很大。與此同時，Alphabet Waymo和GM Cruise在開發(fā)和早期測試階段使用的全尺寸GPU成本要高出10倍，他們正在考慮為他們的車輛制造更快（也更昂貴）的SoC。

特斯拉的FSD系列

第二代芯片從2023年2月開始在車輛上進(jìn)行發(fā)貨，該芯片的設(shè)計與第一代非常相似。第一代芯片基于三星的14nm工藝，采用了三個四核集群的設(shè)計，總共有12個Arm Cortex-A72內(nèi)核，運(yùn)行頻率為2.2 GHz。然而，在第二代設(shè)計中，特斯拉將CPU核心數(shù)量增加到了五個四核集群，共20個Cortex-A72內(nèi)核。

第二代FSD芯片最重要的部分是3個NPU核心。這三個核心每個都使用32 MiB的SRAM來存儲模型權(quán)重和激活數(shù)據(jù)。每個周期，從SRAM中讀取256字節(jié)的激活數(shù)據(jù)和128字節(jié)的權(quán)重數(shù)據(jù)傳遞給乘積累加運(yùn)算（MAC）。MAC的設(shè)計是一個網(wǎng)格，每個NPU核心有一個96x96的網(wǎng)格，每個時鐘周期總共有9,216個MAC和18,432個操作。每個芯片上的3個NPU運(yùn)行頻率為2.2 GHz，總計算能力達(dá)到121.651萬億次運(yùn)算每秒（TOPS）。

第二代FSD芯片擁有256GB的NVMe存儲和16GB的Micron GDDR6，其速度為14Gbps，并通過128位內(nèi)存總線提供224GB/s的帶寬。后者變化最為顯著，因?yàn)閹捪啾壬弦淮岣吡思s3.3倍。FLOPs（每秒浮點(diǎn)運(yùn)算數(shù)）相對于帶寬的增加表明HW3芯片難以充分得到利用。每個HW 4.0中配備兩個FSD芯片。

HW4板性能增加是以額外的功耗為代價的，HW4板的空閑功耗約為HW3的兩倍。在峰值時，Semianalysis預(yù)計功耗也會更高。外部HW4外殼電壓為16V，電流為10A，即使用功率為160W。

盡管HW4性能有所提升，但特斯拉仍希望使HW3也能實(shí)現(xiàn)全自動駕駛，這很可能是因?yàn)樗麄儾幌雽σ奄徺I全自動駕駛功能的現(xiàn)有HW3用戶進(jìn)行改裝。

信息娛樂系統(tǒng)采用了AMD的GPU/APU。與上一代相比，該系統(tǒng)現(xiàn)在與FSD芯片位于同一板上，而不再使用獨(dú)立的擴(kuò)展板。

HW4平臺支持12個攝像頭，其中一個用于冗余備份，因此實(shí)際使用的是11個攝像頭。在舊的配置中，前置攝像頭集線器使用了三個低分辨率的120萬像素攝像頭。而新平臺則使用了兩個更高分辨率的500萬像素攝像頭。

特斯拉目前不使用激光雷達(dá)傳感器或其他非攝像頭的方法。過去，他們確實(shí)使用了雷達(dá)傳感器，但在中期將其移除。這極大地降低了車輛的制造成本，特斯拉致力于優(yōu)化成本，并相信純攝像頭感知是實(shí)現(xiàn)自動駕駛的可能途徑。然而，他們也指出，如果有可行的雷達(dá)傳感器可用，他們將將其與攝像頭系統(tǒng)整合。

在HW4平臺上，有一個內(nèi)部設(shè)計的雷達(dá)，名為Phoenix。Phoenix將雷達(dá)系統(tǒng)與攝像頭系統(tǒng)結(jié)合起來，旨在通過利用更多的數(shù)據(jù)打造更安全的車輛。Phoenix雷達(dá)使用76-77 GHz頻譜，峰值等效全向輻射功率（EIPR）為4.16 W，平均等效輻射功率（EIRP）為177.4 mW。它是一種非脈沖式汽車?yán)走_(dá)系統(tǒng)，具有三種感知模式。雷達(dá)PCB包括一個用于傳感器融合的Xilinx Zynq XA7Z020 FPGA芯片。

特斯拉AI模型差異化

特斯拉旨在開發(fā)基礎(chǔ)的AI模型，以為其自動機(jī)器人和汽車提供動力。這兩者都需要了解周圍環(huán)境并在周圍導(dǎo)航，因此可以應(yīng)用相同類型的AI模型。為未來的自動平臺創(chuàng)建高效的模型需要大量的研究，具體來說需要大量的數(shù)據(jù)。此外，這些模型的推理必須以極低的功耗和低延遲進(jìn)行，由于硬件限制，這極大減少了特斯拉能夠提供的最大模型尺寸。

在所有公司中，特斯拉擁有可用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最大數(shù)據(jù)集。每輛上路的特斯拉汽車都使用傳感器和圖像來捕捉數(shù)據(jù)，將這個數(shù)乘以上路特斯拉電動汽車的數(shù)量，將得到一個龐大的數(shù)據(jù)集。特斯拉將其數(shù)據(jù)收集部分稱為“車隊規(guī)模自動標(biāo)注”。每輛特斯拉電動汽車都會拍攝一段45-60秒的密集傳感器數(shù)據(jù)記錄，包括視頻、慣性測量單元（IMU）數(shù)據(jù)、GPS、里程計等，并將其發(fā)送到特斯拉的訓(xùn)練服務(wù)器上。

特斯拉的模型是通過分割、掩膜、深度、點(diǎn)匹配等任務(wù)進(jìn)行訓(xùn)練的。由于在道路上擁有數(shù)百萬輛電動汽車，特斯拉有大量經(jīng)過良好標(biāo)記和記錄的數(shù)據(jù)源供選擇，這使得他們能夠在公司的Dojo超級計算機(jī)上進(jìn)行持續(xù)的訓(xùn)練。

然而，特斯拉在數(shù)據(jù)使用方面的信念與其建立的可用基礎(chǔ)設(shè)施相矛盾，特斯拉只使用了收集到的數(shù)據(jù)中的一小部分。由于其嚴(yán)格的推理限制，特斯拉因過度訓(xùn)練其模型以在給定的模型大小內(nèi)實(shí)現(xiàn)最佳準(zhǔn)確性而聞名。

過度訓(xùn)練（over-training）小型模型導(dǎo)致完全自動駕駛的性能出現(xiàn)瓶頸，并且無法利用收集到的所有數(shù)據(jù)。許多公司選擇盡可能進(jìn)行大規(guī)模訓(xùn)練，但他們也使用更強(qiáng)大的汽車推理芯片。例如，英偉達(dá)計劃在2025年向汽車客戶交付具備2000 TeraFLOPS計算能力的DRIVE Thor芯片，這比特斯拉的新HW4芯片要高出15倍以上。此外，英偉達(dá)的架構(gòu)對于其他模型類型來說更加靈活。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

特斯拉，“偽裝”成車企的AI芯片公司？

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

特斯拉，“偽裝”成車企的AI芯片公司？

相關(guān)推薦

技術(shù)專區(qū)

特斯拉，“偽裝”成車企的AI芯片公司？