陳巍談芯:最新發(fā)布的壁仞GPU BR100參數(shù)深度對比和優(yōu)勢分析
從專業(yè)視角來看BR100的技術(shù)亮點(diǎn),包括算力、能效比、多GPU互連、多實(shí)例GPU。架構(gòu)上做了優(yōu)化,特別是做了近存計算/存算一體優(yōu)化,芯片可圈可點(diǎn),專利壁壘和生態(tài)上的挑戰(zhàn)才剛剛開始。
本文引用地址:http://2s4d.com/article/202209/437903.htm清晰性能對比表在文末
作者: 陳巍 博士 存算一體/GPU架構(gòu)和AI專家,高級職稱。曾任AI企業(yè)首席科學(xué)家、國內(nèi)首個3D NAND設(shè)計團(tuán)隊(duì)負(fù)責(zé)人。
無利益相關(guān),歸納一下BR100已公開的可能弱項(xiàng)和亮點(diǎn)。
1,可能的弱項(xiàng)
(這里僅僅說可能,因?yàn)榫唧w技術(shù)細(xì)節(jié)還需要由壁仞公開)
1)對于通用計算生態(tài)的支持有待觀察
畢竟針對AI計算進(jìn)行了流處理器優(yōu)化,因此有可能犧牲部分通用計算能力來強(qiáng)化與AI相關(guān)的矩陣計算。這種優(yōu)化是合理的但也可能導(dǎo)致客戶量減少。以致于有業(yè)內(nèi)人士將之形容為“大號的AI芯片”或者“昇騰的友商”??梢哉f看起來是介于傳統(tǒng)GPGPU和AI芯片之間的一個形態(tài),技術(shù)混血。
而且GPU之所以能成為主流的AI計算芯片,與GPU對AI的通用計算支持關(guān)系很大。畢竟絕大部分場景,除了AI計算外,還有很多非AI計算。生態(tài)是任何GPU芯片的根本。一般來說同樣算力的CUDA 核(通用流處理器的核心)面積和功耗是大于AI核的,所以不排除壁仞團(tuán)隊(duì)縮減通用流式處理器的硬件算子支持能力來提升AI算力的可能性。(當(dāng)然這類操作對AI專用場景的芯片也是合理的)
對于同為清華電子系的夏晶晶老師所說的:”全盤放棄FP16,梭哈BF16,部分BF16無法收斂的網(wǎng)絡(luò)用低一檔性能的FP32“,尊重其觀點(diǎn),我暫時持保留意見:)
就我在AI企業(yè)擔(dān)任首席科學(xué)家期間,我看到的大部分Inference的model使用的是FP16定型,這也就意味著,對于大部分AI煉丹師和企業(yè),F(xiàn)P16目前是其能夠reuse其寶貴算法資產(chǎn)的底褲。如果未來遷移到其他AI芯片,也是以FP16為準(zhǔn)。當(dāng)然以后這個底褲可能會變?yōu)锽F16,但這一遷移過程可能意味著已部署模型的重訓(xùn)練,幾乎足以抵消算力提升帶來的優(yōu)勢,甚至意味著AI企業(yè)管理層對煉丹師們的極大不解:”為什么都是支持16位浮點(diǎn),部署換到BR100就必須要重新訓(xùn)練模型“。
我不清楚BR100的主架構(gòu)師犧牲FP16這個業(yè)內(nèi)使用最多的數(shù)據(jù)類型的最關(guān)鍵考量是什么,希望不是為了討好投資人,畢竟這一舉措有可能因此失去大量的潛在客戶。
2)算力遠(yuǎn)大于PCIe帶寬導(dǎo)致的算力利用率風(fēng)險
我們看到BR100的內(nèi)部算力帶寬已經(jīng)明顯超過PCIe5/HBM2e的帶寬,所以絕大部分?jǐn)?shù)據(jù)可能都要在GPU內(nèi)流轉(zhuǎn),這很可能導(dǎo)致在大部分情況下,GPU需要等待從PCIe和HBM2e傳回的數(shù)據(jù)。這樣再加上較大的片上SRAM,可能會導(dǎo)致有效算力的性價比稍低。因此BLink互連對這類大算力計算卡就變得尤為重要,通過互連來彌補(bǔ)數(shù)據(jù)帶寬的不足。
3)專利風(fēng)險
這也是國內(nèi)GPU企業(yè)所要面臨的共同問題。絕大部分的優(yōu)化,包括架構(gòu),都是北美和國內(nèi)那些AI芯片企業(yè)已經(jīng)使用過的技術(shù)。當(dāng)然,這些技術(shù)應(yīng)用在GPU中,還是要做很多努力和創(chuàng)新的。但這也意味著,如果真的能跟NV抗衡,很可能受到北美的專利攻擊。
2,亮點(diǎn)梳理
祝賀壁仞團(tuán)隊(duì)取得的突破。
歸納一下BR100已公開的技術(shù)亮點(diǎn)(1-5):
1)標(biāo)稱算力突破。使用TSMC N7工藝達(dá)到了NVIDIA 使用更先進(jìn)的N4工藝的標(biāo)稱算力。這應(yīng)是 壁仞團(tuán)隊(duì)技術(shù)+數(shù)據(jù)流并行+Chiplet技術(shù) 的勝利。因?yàn)椴捎昧藬?shù)據(jù)流架構(gòu),估計有效算力比率跟NVIDIA比不會差。
至于稀疏化嘛,相當(dāng)于只算模型權(quán)重中大的一半,通常會導(dǎo)致精度下降,不如模型壓縮效果好,實(shí)際的云計算用的少。個人認(rèn)為稀疏化的主要適用場景是對計算精度要求不高的端側(cè)場景,在云計算領(lǐng)域,稀疏化算力的實(shí)用意義不大。稀疏化算力做到非稀疏化算力的20倍都沒啥問題,客戶不用標(biāo)再高也沒意義,所以不必糾結(jié)于與稀疏化算力的比較。
2)能效比超過同工藝GPU A100 78.8%。非常不錯的成績,這應(yīng)是 壁仞團(tuán)隊(duì)技術(shù)+近存計算技術(shù)的勝利。(近存計算是存算一體技術(shù)的一種)。
3)支持多GPU互連。這個是多GPU級聯(lián)計算大模型的關(guān)鍵。
4)支持多GPU實(shí)例。這是GPU上云虛擬化的關(guān)鍵。我和耿云川博士帶的團(tuán)隊(duì)也完成了存算一體架構(gòu)下多實(shí)例的設(shè)計,所以很清楚這一工作需要面對的挑戰(zhàn)。
5)支持國密安全規(guī)范。這是進(jìn)入國產(chǎn)自主可控計算領(lǐng)域的關(guān)鍵點(diǎn)之一。
下面,軟件生態(tài)的挑戰(zhàn)將是國產(chǎn)GPU面對的關(guān)鍵挑戰(zhàn),祝各個國產(chǎn)GPU玩家都能取得好成績。
評論