如果沒有AI算力，大模型這場(chǎng)戰(zhàn)役我們可能勝不了

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-12-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

發(fā)布文章

沒想到，在ChatGPT爆火后的一年里，竟然出現(xiàn)了一個(gè)隱藏“Boss”——

據(jù)悉，百度、360等互聯(lián)網(wǎng)大廠均已開始基于昇騰部署AI模型；而知乎、新浪、美圖這樣全速推進(jìn)AI業(yè)務(wù)的公司，背后同樣出現(xiàn)了華為云昇騰AI云服務(wù)的身影。

明面上，大模型帶動(dòng)了N卡炙手可熱；但另一面，國產(chǎn)算力提供者中的頭部企業(yè)華為也浮出水面。

有意思的是，上述提到的玩家，目前展現(xiàn)的共性也非常明顯：無一例外都是有場(chǎng)景的互聯(lián)網(wǎng)玩家。

簡(jiǎn)單解釋，就是這些公司在大模型變革之前，基本都在各自的行業(yè)中有穩(wěn)定的業(yè)務(wù)生態(tài)，也有核心的商用場(chǎng)景。

毫無疑問，他們需要更快更高效讓大模型引擎轉(zhuǎn)動(dòng)，可以更快產(chǎn)生最直接的價(jià)值，云算力是最合適的選擇。

國內(nèi)算力市場(chǎng)，悄然生變

解題就得從大背景展開，國內(nèi)算力市場(chǎng)的供給和需求，正在產(chǎn)生方向性變化。

首先是資源的供給，也就是提供算力的市場(chǎng)，出現(xiàn)了變化。

從去年開始，國內(nèi)市場(chǎng)就出現(xiàn)了“N卡難求”的情況。為此英偉達(dá)輪番推出特供版GPU，在算力和功率上一再縮水，但還是受到限制。最近才有風(fēng)聲的HGX H20和兩款新的GPU，也被曝可能推遲到明年2月或3月才能發(fā)布。

一系列算力供給縮水動(dòng)作，使得國內(nèi)市場(chǎng)上已有的英偉達(dá)系列顯卡進(jìn)一步稀缺，算力一個(gè)月內(nèi)漲價(jià)50%甚至100%已是常態(tài)。

據(jù)《經(jīng)濟(jì)參考報(bào)》介紹，由于算力資源持續(xù)緊張，國內(nèi)算力服務(wù)公司如匯納科技，已經(jīng)在11月中旬?dāng)M將所受托運(yùn)營的內(nèi)嵌英偉達(dá)A100的高性能算力服務(wù)器算力服務(wù)收費(fèi)同步上調(diào)100%。

與此同時(shí)，國內(nèi)互聯(lián)網(wǎng)廠商因大模型急速增長(zhǎng)的算力需求，又加劇了這種緊張的局面。

先是國內(nèi)大模型數(shù)量激增，10月份統(tǒng)計(jì)數(shù)據(jù)顯示，國內(nèi)已發(fā)布了238個(gè)大模型。

每一個(gè)大模型背后都意味著海量算力的投入，綜述《A Survey of Large Language Models》顯示，650億參數(shù)大模型LLaMA，在2048塊80G A100上訓(xùn)練了21天；而700億大模型LLaMA 2，同樣用了2000塊80G A100訓(xùn)練。

然而，AI算力需求還會(huì)持續(xù)上漲。

據(jù)OpenAI測(cè)算，自2012年以來，人工智能模型訓(xùn)練算力需求每3~4個(gè)月就翻一番，每年訓(xùn)練AI模型所需算力增長(zhǎng)幅度高達(dá)10倍。

△圖源OpenAI

顯然，隨著AI成為全球產(chǎn)業(yè)的增速引擎，算力作為背后的驅(qū)動(dòng)力自然關(guān)注不小，甚至出現(xiàn)了“誰能爭(zhēng)搶到算力，誰就更有先發(fā)權(quán)”這樣的說法。

一方面，如果算力跟不上，無法搭上AI這班快車，直接面臨的結(jié)果就是在競(jìng)爭(zhēng)中落于下風(fēng)，甚至可能被行業(yè)拋棄。

360公司創(chuàng)始人周鴻祎曾經(jīng)談到，公司如果沒有搭上ChatGPT這班車，很有可能會(huì)被淘汰。

與之相反，如果及時(shí)跟進(jìn)潮流，公司就能憑借已有場(chǎng)景，快速在行業(yè)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)。像是一度裁員12%的美版頭條BuzzFeed，在宣布和OpenAI合作使用ChatGPT幫助創(chuàng)作內(nèi)容后，股價(jià)一度暴漲119%。

另一方面，算力的充足與否，又直接決定了擁有AI技術(shù)和產(chǎn)品的公司，能否提供長(zhǎng)期穩(wěn)定的服務(wù)，從而在這場(chǎng)競(jìng)爭(zhēng)中擁有先發(fā)權(quán)。

即使是在這場(chǎng)潮流中占據(jù)主導(dǎo)話語權(quán)的OpenAI，也面臨算力緊張而無法滿足用戶需求、被迫將用戶“拱手相讓”的問題。

例如前不久，ChatGPT出現(xiàn)了幾次流量過大、服務(wù)器承載不下導(dǎo)致應(yīng)用響應(yīng)崩潰的情況，導(dǎo)致國外用戶爭(zhēng)相涌向谷歌Bard和Anthropic的Claude 2；付費(fèi)訂閱產(chǎn)品GPT-4，同樣因?yàn)榉?wù)器流量爆炸而出現(xiàn)“暫停訂閱”的情況。

但當(dāng)下算力受限的情況，導(dǎo)致傳統(tǒng)互聯(lián)網(wǎng)企業(yè)要想快速跟上AI大模型相關(guān)的業(yè)務(wù)，無法再單單依靠“買卡”這一條路。

畢竟光是等待算力龍頭如英偉達(dá)發(fā)卡的時(shí)間，很可能就已經(jīng)錯(cuò)過了這一波風(fēng)口。

相比之下，有場(chǎng)景的互聯(lián)網(wǎng)玩家，一旦有合適的算力，就能更快接入AI大模型相關(guān)的業(yè)務(wù)，從而在這場(chǎng)競(jìng)爭(zhēng)中獲得先發(fā)話語權(quán)。

在這樣的需求下，像華為云這樣的國產(chǎn)算力玩家，再度成為國內(nèi)互聯(lián)網(wǎng)廠商們關(guān)注的對(duì)象。

作為有算力、能提供云服務(wù)、最早適應(yīng)大模型打法的云廠商之一，華為云究竟為何能在一眾算力供給者中脫穎而出，為有場(chǎng)景的玩家們所看好？

為什么是華為云？

在行業(yè)調(diào)研中，行業(yè)玩家們對(duì)大模型時(shí)代的云服務(wù)，有4大普遍性訴求：

算力可持續(xù)
高效長(zhǎng)穩(wěn)
簡(jiǎn)單易用
開放兼容

而之所以選擇華為云，從其“對(duì)癥下藥”的技術(shù)細(xì)節(jié)就能管窺一二。

其架構(gòu)由下至上，包括AI算力、異構(gòu)計(jì)算架構(gòu)、AI框架、AI平臺(tái)、大模型、工具鏈幾個(gè)層級(jí)，由此構(gòu)成一個(gè)算力充沛、高效穩(wěn)定、低門檻廣生態(tài)的云底座。

1、算力可持續(xù)

可持續(xù)的算力能從最根本上緩解行業(yè)玩家們的算力焦慮，同時(shí)也是大模型快速煉成、應(yīng)用落地的基本保障。

在這方面，華為云打造了貴安、烏蘭察布、蕪湖3大AI云算力中心，提供3大主節(jié)點(diǎn)及30+分節(jié)點(diǎn)，支持AI算力即開即用。

昇騰AI集群也在今年全面升級(jí)，集群擴(kuò)展至16000卡，成為業(yè)界首個(gè)萬卡集群。它可支持萬億參數(shù)大模型分布式訓(xùn)練。

此外在保障算力資源合理分配方面，華為云支持資源彈性伸縮，可根據(jù)業(yè)務(wù)需求實(shí)際情況，自動(dòng)增加或縮減服務(wù)器實(shí)例或帶寬資源，可在保障業(yè)務(wù)能力的同時(shí)節(jié)約成本。

2、穩(wěn)定高效

先來看穩(wěn)定性。

由于大模型訓(xùn)練過程比傳統(tǒng)分布式訓(xùn)練更復(fù)雜，導(dǎo)致訓(xùn)練所需計(jì)算集群規(guī)模空前增加、涉及器件數(shù)量往往在百萬/千萬級(jí)別。如果單器件發(fā)生故障，就可能導(dǎo)致集群訓(xùn)練中斷，且故障原因定位定界復(fù)雜。

這就使得當(dāng)前大模型訓(xùn)練更容易出現(xiàn)故障，訓(xùn)練時(shí)間被拉長(zhǎng)。

以Meta的OPT-17B訓(xùn)練為例，理論上在1000個(gè)80G A100上訓(xùn)練3000億個(gè)單詞，需要33天。實(shí)際訓(xùn)練卻使用了90天，期間出現(xiàn)了112次故障。其中主要問題是硬件故障，導(dǎo)致手動(dòng)重啟35次，自動(dòng)重啟約70次。

△OPT-175B意外中斷情況

在這方面，華為云昇騰AI云服務(wù)支持裸金屬集群進(jìn)行大模型訓(xùn)練，無虛擬化損失，并行訓(xùn)練效率提升100%。從處理器、算子、框架、平臺(tái)全鏈路垂直協(xié)同優(yōu)化，主力場(chǎng)景性能是業(yè)界平臺(tái)的1.5倍以上。

以盤古大模型（2000億參數(shù)）在2048卡上的訓(xùn)練為例，實(shí)現(xiàn)了30天訓(xùn)練不中斷，長(zhǎng)穩(wěn)率達(dá)到90%，斷點(diǎn)恢復(fù)時(shí)長(zhǎng)控制在10分鐘以內(nèi)。

此外華為云還實(shí)現(xiàn)了千卡預(yù)訓(xùn)練故障自動(dòng)診斷恢復(fù)，增強(qiáng)智能運(yùn)維工具能力，實(shí)現(xiàn)分鐘級(jí)信息獲取、2小時(shí)定界、24小時(shí)提供解決方案。

△華為常務(wù)董事、華為云CEO張平安

再來看高效性，這是場(chǎng)景玩家們的迫切需求。

但是千億參數(shù)大模型在訓(xùn)練中需要大量的梯度、參數(shù)等進(jìn)行同步，集群很難實(shí)現(xiàn)線性加速比。即，增加了一倍的計(jì)算集群規(guī)模，但是計(jì)算量無法同比增加。比如：

1024卡集群：計(jì)算和通訊比例為7:3
2048卡集群：計(jì)算和通訊比例為4:6

華為云昇騰AI云服務(wù)通過模型+集群的混合并行策略，讓模型切分更加平衡，從而實(shí)現(xiàn)集群接近線性加速比。

1024卡集群：計(jì)算和通訊比例為85:15
2048卡集群：計(jì)算和通訊比例為80:20
4096卡集群：計(jì)算和通訊比例為70:30

以及在訓(xùn)練成本方面，華為云昇騰AI云服務(wù)使用CAME優(yōu)化器，相較于業(yè)內(nèi)常用方案可節(jié)約50%內(nèi)存用量。

要知道，大模型的海量參數(shù)會(huì)導(dǎo)致訓(xùn)練時(shí)內(nèi)存消耗空前增加，進(jìn)一步導(dǎo)致訓(xùn)練成本升高。CAME優(yōu)化器專為大模型訓(xùn)練而來，獲得了2023年ACL杰出論文獎(jiǎng)。

3、簡(jiǎn)單易用降低開發(fā)門檻

如今ChatGPT引爆的大模型趨勢(shì)已經(jīng)全面鋪開，來自千行百業(yè)的玩家們都迫切想要快速將大模型接入自己的業(yè)務(wù)中。

但是大模型開發(fā)又是一個(gè)復(fù)雜的系統(tǒng)工程，從頭開始自己摸索會(huì)影響落地速度。

所以云服務(wù)廠家們紛紛推出了簡(jiǎn)單易用的開發(fā)工具。比如華為云提供了全鏈路工具鏈，云化免配置、開箱即用，可實(shí)現(xiàn)5倍速開發(fā)大模型。

它包括大模型開發(fā)工具套件，可自動(dòng)化、半自動(dòng)化數(shù)據(jù)工程，效率提升3倍，5分鐘快速構(gòu)建應(yīng)用開發(fā)。

調(diào)試調(diào)優(yōu)部分包含1400+算子沉淀，30+可視化調(diào)優(yōu)部署工具；提供豐富的API能力，可調(diào)用盤古大模型100+能力集。

還能將典型模型遷移效率提升到2周內(nèi)搞定，實(shí)現(xiàn)主流場(chǎng)景自主遷移。

4、構(gòu)建開放兼容生態(tài)

最后，并非所有場(chǎng)景玩家都需要從頭構(gòu)建大模型。選擇在已有基礎(chǔ)大模型上進(jìn)行微調(diào)或者直接使用，是更加降本增效的方案。

那么對(duì)于開發(fā)者、行業(yè)玩家而言，有更多選擇就很重要了。

基于這一點(diǎn)業(yè)內(nèi)需求，華為云上線了百模千態(tài)社區(qū)，企業(yè)和開發(fā)者能直接使用業(yè)界主流的開源大模型，如Llama、GLM等。同時(shí)聚合數(shù)據(jù)集、模型、實(shí)踐等10萬+AI資產(chǎn)。

為了滿足開發(fā)者的不同偏好，昇騰AI云服務(wù)已兼容TensorFlow、PyTorch、RAY、Caffe等AI框架。

進(jìn)入昇騰AI云服務(wù)百模千態(tài)專區(qū)，僅需3步即可開發(fā)自己的大模型。

基于如上云服務(wù)能力，華為云已經(jīng)給業(yè)內(nèi)諸多玩家提供了大模型使能服務(wù)。

比如美圖僅用30天就將70個(gè)模型遷移到了昇騰，同時(shí)華為云和美圖團(tuán)隊(duì)一起進(jìn)行了30多個(gè)算子的優(yōu)化以及流程的并行加速，AI性能較原有方案提升了30%。

昆侖萬維和華為云簽署戰(zhàn)略合作，雙方將在華為云昇騰算力領(lǐng)域展開全面深入合作，致力于打造企業(yè)專屬模型，支持企業(yè)級(jí)AI應(yīng)用，持續(xù)賦能千行萬業(yè)應(yīng)用創(chuàng)新與場(chǎng)景落地。

△華為云CTO張宇昕

在當(dāng)前算力稀缺、資源不足的情況下，這些場(chǎng)景玩家選擇與華為云這樣的云廠商聯(lián)手，來快速增強(qiáng)自身“AI硬實(shí)力”。

而這種大背景之下，也涌動(dòng)著當(dāng)前的產(chǎn)業(yè)趨勢(shì)：

技術(shù)創(chuàng)新的曲線開始趨于平緩，商業(yè)創(chuàng)新的曲線開始發(fā)力。

其中，增速最快的，自然是有場(chǎng)景、有業(yè)務(wù)的玩家。

場(chǎng)景玩家如何把握AI落地機(jī)遇

ChatGPT發(fā)布一年以來，AIGC已行至下半場(chǎng)。

上半場(chǎng)，國內(nèi)外掀起一股基礎(chǔ)大模型技術(shù)爭(zhēng)鋒浪潮，“百模大戰(zhàn)”態(tài)勢(shì)之下，涌現(xiàn)出一批AI初創(chuàng)公司。

這些公司或掌握底層AI架構(gòu)基礎(chǔ)、或有搭建上層AI工具的經(jīng)驗(yàn)，依靠技術(shù)發(fā)布了不少有創(chuàng)意且吸睛的產(chǎn)品，融資更是拿到手軟。

然而，隨著相關(guān)技術(shù)逐漸從開疆拓域走向穩(wěn)定成熟，AIGC產(chǎn)業(yè)也出現(xiàn)了新的變化。

下半場(chǎng)，AI技術(shù)公司開始追求產(chǎn)業(yè)落地，不少初創(chuàng)公司更是在尋求擴(kuò)大生態(tài)圈的方式。

相比之下，有場(chǎng)景的互聯(lián)網(wǎng)公司，通過觀察AIGC技術(shù)優(yōu)勢(shì)，依托生態(tài)優(yōu)勢(shì)、加上算力基礎(chǔ)，就能快速擴(kuò)大影響力，進(jìn)而在公司中取得話語權(quán)。

在這種情況下，技術(shù)和場(chǎng)景玩家的身位也在悄然發(fā)生變化——

技術(shù)玩家，需要“拿錘找釘”，面臨進(jìn)一步擴(kuò)張技術(shù)生態(tài)和產(chǎn)品場(chǎng)景的難題。

雖說這些玩家已經(jīng)具備了成熟的基礎(chǔ)大模型或工具鏈技術(shù)，但技術(shù)仍舊需要找到場(chǎng)景，才能進(jìn)一步穩(wěn)定出圈。

相比之下，場(chǎng)景玩家成為了“拿釘找錘”的一方。

依托已有場(chǎng)景需求和穩(wěn)定用戶生態(tài)，這些玩家只需將AIGC技術(shù)融入業(yè)務(wù)，就能進(jìn)一步實(shí)現(xiàn)降本增效。

然而，即便是AIGC技術(shù)趨于成熟的當(dāng)下，想要快速跟進(jìn)也并非易事，除了底層的算力搭建以外，大模型所需的訓(xùn)練和加速等技術(shù)也并非就能“一蹴而就”。

在這樣的下半場(chǎng)態(tài)勢(shì)中，像華為云這樣底層算力、AI相關(guān)技術(shù)和平臺(tái)、生態(tài)三者齊備的國內(nèi)云廠商，在場(chǎng)景玩家的發(fā)展中進(jìn)一步起到了催化劑的作用。

底層算力上，華為云依托自研的昇騰處理器打造的超大規(guī)模AI集群，已經(jīng)由4000卡升級(jí)到16000卡集群，能支持萬億級(jí)模型訓(xùn)練，不僅速度更快，訓(xùn)練周期也更穩(wěn)定；

AI相關(guān)技術(shù)和平臺(tái)上，除了AI算力之外，華為云還為開發(fā)者提供了完善的工具和資源，解決了AI大模型部署從訓(xùn)練、加速到不同框架適配這些難題，進(jìn)而基于已有的研發(fā)經(jīng)驗(yàn)，給廠商提供運(yùn)營所需的技術(shù)服務(wù)；

AI生態(tài)上，華為云已經(jīng)與150多家伙伴、200多家客戶，共同構(gòu)筑了20多個(gè)行業(yè)大模型以及400多個(gè)AI應(yīng)用場(chǎng)景，加速行業(yè)智能化升級(jí)。

所以，在當(dāng)前國際大環(huán)境下，有場(chǎng)景的玩家，只需要借助像華為云這樣的云廠商提供的技術(shù)服務(wù)，就能快速將下半場(chǎng)大模型機(jī)遇變成紅利，而華為云也能給國內(nèi)的互聯(lián)網(wǎng)企業(yè)提供更多選擇。

現(xiàn)有的趨勢(shì)，也能說明這一點(diǎn)。

美圖首個(gè)懂美學(xué)的AI視覺大模型發(fā)布當(dāng)天，股價(jià)單日上漲21.28%，隨后更是受到國內(nèi)圖像編輯工具行業(yè)的廣泛關(guān)注；

拓維信息發(fā)布的交通CV大模型，如今已在高速公路稽核等行業(yè)場(chǎng)景得到應(yīng)用，這1年一來股價(jià)上漲了129.44%……

顯然，這些玩家基于自身已有的業(yè)務(wù)，再依托云廠商提供的大模型和算力，就能快速將場(chǎng)景勢(shì)能發(fā)揮到最大優(yōu)勢(shì)。

但無論選擇什么類型的云廠商、做出怎樣的判斷，國內(nèi)互聯(lián)網(wǎng)企業(yè)都依舊需要回到當(dāng)前的大環(huán)境下，結(jié)合客觀形勢(shì)做出判斷。

在國外算力購買愈發(fā)困難的當(dāng)下，面臨新一輪AI競(jìng)爭(zhēng)趨勢(shì)，如何讓算力像水電一樣即取即用，是所有國內(nèi)企業(yè)都應(yīng)當(dāng)要思考的問題。

事實(shí)上，如今中國的算力水平實(shí)際上已經(jīng)位居世界第二，占全球市場(chǎng)比重達(dá)25%，從2017年到2022年的復(fù)合增長(zhǎng)率達(dá)到48.8%。

當(dāng)更多的企業(yè)愿意投資算力、交易算力，就能推動(dòng)算力產(chǎn)業(yè)進(jìn)一步降本增效，加快算力向現(xiàn)實(shí)生產(chǎn)力轉(zhuǎn)化。

— 完 —

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

如果沒有AI算力，大模型這場(chǎng)戰(zhàn)役我們可能勝不了

相關(guān)推薦

技術(shù)專區(qū)