國產(chǎn)最強(qiáng)通用GPU來了!770億顆晶體管,八大核心特性揭秘
編輯 | 漠影
芯東西8月9日報(bào)道,今日下午,上海GPU獨(dú)角獸企業(yè)壁仞科技推出首款面向云端人工智能(AI)訓(xùn)練及推理的通用GPU算力產(chǎn)品BR100系列,其旗艦產(chǎn)品的峰值算力超過了英偉達(dá)目前在售的旗艦計(jì)算產(chǎn)品A100 GPU的3倍。
▲張文展示BR100芯片
“全球通用GPU算力紀(jì)錄,第一次由一家中國企業(yè)創(chuàng)造。”在發(fā)布會(huì)上,壁仞科技創(chuàng)始人、董事長、CEO張文宣布,“中國通用GPU芯片進(jìn)入每秒1,000,000,000,0000,000次計(jì)算新時(shí)代?!?/span>壁仞科技成立于2019年9月9日,再過一個(gè)月,就是其三周年的紀(jì)念日。團(tuán)隊(duì)總共經(jīng)過1065個(gè)日日夜夜的奮戰(zhàn),這才有了這款大算力芯片的誕生。在此之際,張文也宣布他的下一個(gè)小目標(biāo):“百年基業(yè)長青”。BR100芯片采用7nm制程、壁仞原創(chuàng)“壁立仞”芯片架構(gòu),容納近800億顆晶體管,配備超300MB片上高速SRAM,并應(yīng)用Chiplet與2.5D CoWoS封裝技術(shù),突破了大尺寸芯片制造與封裝中的光罩尺寸限制問題,做到高良率與高性能的兼顧。它也是國內(nèi)互連帶寬創(chuàng)紀(jì)錄芯片。BR100還首次引入了壁仞科技原創(chuàng)定義的TF32+數(shù)據(jù)精度,可提供比英偉達(dá)TF32更高的數(shù)據(jù)精度與吞吐性能。同時(shí)壁仞提供有配套的原創(chuàng)異構(gòu)計(jì)算平臺(tái)BIRENSUPA,提供端到端全棧覆蓋。此外,壁仞科技與浪潮現(xiàn)場共同發(fā)布了創(chuàng)全球性能紀(jì)錄的OAM服務(wù)器“海玄”,其峰值浮點(diǎn)算力達(dá)8PFLOPS,最大功耗為7KW,并提供高能效、低TCO(總擁有成本)的數(shù)據(jù)中心集群方案。“我見過很多豪華的創(chuàng)業(yè)團(tuán)隊(duì)失敗,但是從來沒見過有信仰的團(tuán)隊(duì)失敗?!睆埼姆窒碚f,自己的創(chuàng)業(yè)理念是“做難而正確的事,真正替社會(huì)創(chuàng)造價(jià)值”。目前,壁仞科技團(tuán)隊(duì)規(guī)模已超過900人,并有望在今年年底達(dá)到千人規(guī)模,其中85%以上擁有碩士及以上學(xué)位。除了通用GPU外,壁仞科技也啟動(dòng)了圖形GPU產(chǎn)品線。圍繞BR100芯片的更多技術(shù)細(xì)節(jié)和落地進(jìn)展,芯東西采訪了多位壁仞科技高層。壁仞科技聯(lián)合創(chuàng)始人、總裁徐凌杰告訴芯東西,BR100系列芯片以及相應(yīng)硬件計(jì)算產(chǎn)品將于今年年底量產(chǎn)。01.全球最強(qiáng)性能通用GPU八大核心特性
▲壁仞B(yǎng)R100芯片與英偉達(dá)H100/A100基礎(chǔ)規(guī)格對比
綜合來看,其旗艦產(chǎn)品BR100有8項(xiàng)核心特性:(1)先進(jìn)制造及封裝技術(shù):采用7nm制程工藝,在1074mm2芯片面積上集成了770億顆晶體管,并應(yīng)用了前沿的Chiplet與2.5D CoWoS封裝技術(shù),能夠兼顧高良率與高性能。(2)高性能及高能效比:核心性能媲美英偉達(dá)最新推出的旗艦計(jì)算產(chǎn)品H100 GPU,較英偉達(dá)A100算力提升3倍以上。(3)多數(shù)據(jù)精度支持:除了原生支持FP32、BF16、FP16、INT8等主流數(shù)據(jù)精度外,還支持壁仞原創(chuàng)定義的TF32+數(shù)據(jù)精度。與TF32相比,TF32+在滿足相同動(dòng)態(tài)表示范圍的前提下,增加了5位尾數(shù)(mantissa),可實(shí)現(xiàn)比TF32更高的數(shù)據(jù)精度與吞吐性能,適用于大量的乘加計(jì)算。(4)先進(jìn)內(nèi)存系統(tǒng):64GB HBM2e片外內(nèi)存,數(shù)據(jù)速率高達(dá)3.2Gbps,帶寬高達(dá)1.64TB/s,總計(jì)位寬4096bit。(5)先進(jìn)互連系統(tǒng): 原創(chuàng)BLink高速GPU互連技術(shù),采用最新高速serDes技術(shù),支持8卡點(diǎn)對點(diǎn)全互連,聚合帶寬達(dá)512GB/s,創(chuàng)國內(nèi)互連帶寬紀(jì)錄;采用最新一代主機(jī)接口PCIe 5.0并率先支持CXL 2.0通信協(xié)議,雙向帶寬高達(dá)128GB/s。(6)安全虛擬實(shí)例(SVI):最高支持8個(gè)獨(dú)立實(shí)例,每個(gè)實(shí)例物理隔離并配備獨(dú)立的硬件資源,可獨(dú)立運(yùn)行。(7)國密安全規(guī)范:專用硬件加解密IP,支持 AES等常用安全加密算法,符合國密一級安全規(guī)范。(8)OCP規(guī)范硬件系統(tǒng):符合OCP規(guī)范的OAM模組,最高支持550W TDP風(fēng)冷散熱,并在通用UBB主板上實(shí)現(xiàn)8卡點(diǎn)對點(diǎn)全互連。BR100系列還包含另一款主流級數(shù)據(jù)中心加速計(jì)算芯片BR104,可適配成熟、部署廣泛的PCIe板卡形態(tài)。BR104搭載于訓(xùn)推一體主流級產(chǎn)品壁礪104 PCIe板卡上,它采用標(biāo)準(zhǔn)PCIe形態(tài),整卡峰值功耗300W,適配多種2-4U的PCIe GPU服務(wù)器,與現(xiàn)有基礎(chǔ)設(shè)施高度兼容,現(xiàn)已開放邀測。
▲壁仞BR100系列產(chǎn)品與英偉達(dá)H100/A100規(guī)格對比
02.原創(chuàng)訓(xùn)推一體架構(gòu),自研異構(gòu)計(jì)算平臺(tái)
壁仞科技CTO洪洲負(fù)責(zé)主導(dǎo)其首款通用GPU芯片BR100的原創(chuàng)架構(gòu)研發(fā)設(shè)計(jì),他將在今年8月26日舉行的GTIC 2022全球AI芯片峰會(huì)·高峰論壇上發(fā)表《大算力通用GPU賦能超大模型訓(xùn)練》主題演講。據(jù)他介紹,壁仞團(tuán)隊(duì)在微架構(gòu)上,以通用計(jì)算核的設(shè)計(jì)為中心,搭配強(qiáng)大的張量計(jì)算引擎,來進(jìn)行加速計(jì)算;同時(shí)采用自研指令集,以更高效地實(shí)現(xiàn)各功能運(yùn)行。
具體來看,BR100有32個(gè)SPC流式處理器簇,每個(gè)SPC有16個(gè)EU執(zhí)行單元,每4個(gè)EU可配置成1個(gè)CU計(jì)算單元,每個(gè)SPC共4096個(gè)線程。而每個(gè)EU有16個(gè)通用流式處理器,同時(shí)包含采用脈動(dòng)3D GEMM架構(gòu)的專用張量引擎。
BR100總計(jì)擁有8192個(gè)通用流式處理器、512組專用張量加速引擎,共128K個(gè)線程,配備256MB分布式共享L2級緩存,支持多SPC間數(shù)據(jù)共享,并可配置成大容量的scratchpad,還能支持不同層次的近存儲(chǔ)計(jì)算。其自研的GPGPU架構(gòu)及指令集搭配多級緩存架構(gòu),可實(shí)現(xiàn)大模型訓(xùn)練下的數(shù)據(jù)重用;基于NoC的通訊架構(gòu),支持共享數(shù)據(jù)多播機(jī)制,可以與分布式緩存配合實(shí)現(xiàn)高效通信,大大減少對片外帶寬的需求,并大幅降低功耗。
如前文所述,除了架構(gòu)設(shè)計(jì)外,BR100還采用了許多業(yè)界領(lǐng)先的芯片技術(shù),包括風(fēng)頭漸盛的chiplet。洪洲向芯東西解釋說,對于可明確劃分功能模塊的芯片,或在公司產(chǎn)品線非常豐富、產(chǎn)品線之間可重復(fù)使用特定模塊的情況下,采用自研chiplet方案進(jìn)行SoC功能模塊的復(fù)用可以縮短設(shè)計(jì)周期、降低設(shè)計(jì)成本并大幅提升良率。這要求芯片設(shè)計(jì)團(tuán)隊(duì)具備對高速接口、大芯片封裝有豐富經(jīng)驗(yàn)。
需注意的是,壁仞科技此次推出的通用GPU產(chǎn)品,主打面向云端數(shù)據(jù)中心場景的AI計(jì)算及通用科學(xué)計(jì)算,不能與圖形GPU劃等號。壁仞科技聯(lián)席CEO李新榮告訴芯東西,為了強(qiáng)化計(jì)算能力,通用GPU往往會(huì)弱化圖形渲染,并且往往沒有顯示輸出接口,并不能直接用于游戲等應(yīng)用(英偉達(dá)的專業(yè)計(jì)算卡雖也具備渲染能力,但也只能用于云端渲染)。這是由它的應(yīng)用場景和設(shè)計(jì)特點(diǎn)所決定的。另外,有部分人士會(huì)認(rèn)為專用AI芯片的能效比一定比通用GPU能效比高,可以取代通用GPU,但李新榮特別談道,這一觀點(diǎn)并不準(zhǔn)確,因?yàn)椴煌酒哪苄П仁芗軜?gòu)、工藝等多種因素影響。即使某些專用芯片在特定場景下能效比高,也不一定能解決實(shí)際應(yīng)用場景的大算力計(jì)算問題,尤其在訓(xùn)練場景下,GPU芯片的絕對算力大、通用性強(qiáng)、軟件棧的易用性和豐富的軟件生態(tài)等特點(diǎn)使得它仍然占據(jù)數(shù)據(jù)中心的加速計(jì)算主導(dǎo)地位。
“在數(shù)據(jù)中心場景下,所謂的專用AI芯片要取代GPU已經(jīng)證明是非常困難的?!崩钚聵s說。
與BR100系列芯片搭配,壁仞科技還自研了異構(gòu)計(jì)算平臺(tái)BIRENSUPA及配套軟件開發(fā)工具,支持業(yè)內(nèi)主流的深度學(xué)習(xí)框架與模型,從而為數(shù)據(jù)中心場景用戶提供靈活、安全的算力部署,有效降低數(shù)據(jù)中心的總擁有成本。
BIRENSUPA(BIREN Scalable Unified Parallel Architecture)平臺(tái)是壁仞科技硬件設(shè)備上開發(fā)深度學(xué)習(xí)和通用計(jì)算應(yīng)用的編程模型和軟件平臺(tái),為應(yīng)用程序提供輕松訪問高性能并行處理硬件的能力,具備可開源、可擴(kuò)展的特征。其完整軟件棧包括固件、驅(qū)動(dòng)程序、編譯器、工具、編程模型、庫、機(jī)器學(xué)習(xí)(ML)框架和端到端應(yīng)用SDK,兼容TensorFlow、PyTorch、飛槳等主流深度學(xué)習(xí)框架。BIRENSUPA還支持壁仞自研高性能推理引擎并適配第三方推理引擎,支持現(xiàn)有GPU代碼平滑遷移。03.已與重點(diǎn)客戶啟動(dòng)產(chǎn)品適配進(jìn)入測試階段
李新榮透露道,經(jīng)過4個(gè)多月的開發(fā),BR100系列在硬件與軟件方面都取得進(jìn)展,不僅芯片順利完成工程樣品的開發(fā),與服務(wù)器設(shè)備的適配也有了階段性的成果,整體系統(tǒng)已在最短時(shí)間內(nèi)進(jìn)入了產(chǎn)品化階段,并獲得了穩(wěn)定優(yōu)異的性能數(shù)據(jù)。
“作為一家國內(nèi)初創(chuàng)企業(yè),第一次在極短的時(shí)間內(nèi)完成這樣的工作是非常難得的,足以證明我們在前期的設(shè)計(jì)工作是扎實(shí)的、可靠的、經(jīng)得住考驗(yàn)的?!彼锌馈?/span>據(jù)徐凌杰分享,壁仞科技已與互聯(lián)網(wǎng)、云計(jì)算、金融、通信、數(shù)據(jù)中心的行業(yè)的頭部客戶簽署戰(zhàn)略協(xié)議,其中與重點(diǎn)客戶已啟動(dòng)產(chǎn)品適配,并進(jìn)入測試階段,獲得客戶積極的反饋。目前BR100應(yīng)用的重點(diǎn)領(lǐng)域以互聯(lián)網(wǎng)、通信運(yùn)營商、行業(yè)AI等領(lǐng)域?yàn)橹鳌?/span>現(xiàn)場,壁仞和浪潮共同發(fā)布為數(shù)據(jù)中心云端訓(xùn)練打造的“海玄”O(jiān)AM服務(wù)器及集群方案。“海玄”O(jiān)AM服務(wù)器可實(shí)現(xiàn)8PFLOPS浮點(diǎn)算力,最大功耗7KW。徐凌杰說,“海玄”O(jiān)AM服務(wù)器創(chuàng)全球單臺(tái)GPU服務(wù)器的算力紀(jì)錄,將于2022年第四季度開放邀測。
基于海玄OAM服務(wù)器,壁仞向市場提供一整套具有高性能、高性價(jià)比的集群式算力基礎(chǔ)設(shè)施解決方案。與國際廠商數(shù)據(jù)中心方案相比,壁仞的數(shù)據(jù)中心集群方案僅用1/3的服務(wù)器數(shù)量,實(shí)現(xiàn)了更高的浮點(diǎn)算力、更低的峰值能耗和占地空間,同時(shí)將標(biāo)準(zhǔn)煤發(fā)電量降低64%,具有高能效利用率、實(shí)用性、經(jīng)濟(jì)性、環(huán)境協(xié)調(diào)性等特性。壁仞科技還宣布加入百度飛槳硬件生態(tài)共創(chuàng)計(jì)劃,BR100產(chǎn)品與百度飛槳已經(jīng)完成I級兼容性測試,達(dá)到兼容性要求。此外,為了更好服務(wù)全球開發(fā)者,壁仞科技開發(fā)者云已經(jīng)上線。
04.AI芯片進(jìn)入拼落地時(shí)段
看向未來,他判斷國內(nèi)通用GPU產(chǎn)業(yè)往后發(fā)展,最好的結(jié)果是能產(chǎn)生1-2家芯片企業(yè),真正趕超國際巨頭在加速計(jì)算芯片領(lǐng)域的市場地位;最差的結(jié)果是需要更長時(shí)間去建立國產(chǎn)芯片的技術(shù)壁壘,尤其在集成電路全球產(chǎn)業(yè)鏈持續(xù)分裂的趨勢下,這需要政府和國家投入更多的資源。
05.結(jié)語:用系統(tǒng)性思維解決通用GPU落地難題
為了應(yīng)對這些挑戰(zhàn),李新榮說:“壁仞未來會(huì)繼續(xù)大力布局?jǐn)?shù)據(jù)中心的計(jì)算產(chǎn)品,持續(xù)優(yōu)化軟硬件,不斷擴(kuò)展壁仞在智能計(jì)算領(lǐng)域的能力和行業(yè)觸角,推動(dòng)產(chǎn)品落地和后續(xù)迭代?!?/span>
GTIC 2022演講預(yù)告
8月26日-27日,「GTIC 2022全球AI芯片峰會(huì)」將在深圳開啟。大會(huì)以“不負(fù)芯光 智算未來”為主題,將于深圳灣萬麗酒店大宴會(huì)廳舉行。
在大會(huì)首日上午舉行的AI芯片高峰論壇上,壁仞科技聯(lián)合創(chuàng)始人&CTO洪洲將發(fā)表主題為《大算力通用GPU賦能超大模型訓(xùn)練》的演講,分享下一代具有強(qiáng)大算力的通用GPU將如何支持萬億參數(shù)級別的超大模型訓(xùn)練,以高性能、高能效比、高通用性助力人工智能賦能百業(yè)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。
稱重傳感器相關(guān)文章:稱重傳感器原理