ChatGPT的戰(zhàn)爭不會濃縮于一個晚上
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自品玩
作者:玄寧
進(jìn)入2023年,ChatGPT著實讓人類感受了一把被AI支配的恐懼。
它超強(qiáng)的上下文理解,泛化,學(xué)習(xí)和推理能力,以逼近人類互動體驗的方式呈現(xiàn)出來,讓所有人耳目一新。哪怕它和它的同類競品紛紛暴露出諸多的問題,依然難阻人們每天驚呼一次“奇點”來臨,日日擔(dān)心自己的工作被取代,紛紛轉(zhuǎn)述比爾蓋茨,納德拉和黃仁勛們對ChatGPT的贊賞。各路人馬也紛紛行動起來,最新的是馬斯克,在批評了自己參與創(chuàng)辦但早已沒有股份的OpenAI旗下ChatGPT的安全問題后,隨即傳出他自己正在計劃組隊開發(fā)ChatGPT的替代品。
一切都飛快的發(fā)展著,這個沉寂了一段時間的行業(yè)終于又被焦慮和聒噪籠罩,這給人一種錯覺:
仿佛這場關(guān)于ChatGPT的競爭就要在一夜之間決出勝負(fù)。
圖源:Unsplash
而在這些焦躁里,那些本該更清晰指向這場競爭真正本質(zhì)的特征——ChatGPT的千億參數(shù),每一次調(diào)用的可觀費用,OpenAI坐的多年冷板凳等等——也被用于了制造短期恐慌。這些或主動或無意的討論事實上都在糾結(jié)于ChatGPT里“chat”的部分——對商業(yè)模式,對可能改變的人類對互聯(lián)網(wǎng)的使用習(xí)慣以及對錯失新投資或是投機(jī)機(jī)會的恐慌。
這些焦慮對想把水?dāng)嚋喍刖值娜艘约吧縿尤斯ぶ悄芡{論的人們來說是喜聞樂見的,但對于真正理性看待這場技術(shù)競爭是無益的。
某種意義上,與其說ChatGPT證明了某一條AI研究路線的成功,倒不如說它更大的意義是證明了AI這些年不斷收斂但依然存在多種選擇的各類路線里,最終真的是會走出一條路的:也就是,它第一次證明了這場技術(shù)革命真的會到來。
而當(dāng)我們真的把它當(dāng)作一場技術(shù)革命來看時,就會明白這是一場將持續(xù)很久的復(fù)雜系統(tǒng)的比拼,也才有可能尋找到真正具備競爭能力的中國參與者,會明白這場新的技術(shù)浪潮的競爭不會“濃縮于一個晚上”。
讓Chat的歸Chat,GPT的歸GPT
“ChatGPT是AI的iPhone時刻?!庇ミ_(dá)創(chuàng)始人及CEO黃仁勛在近期的一次演講里形容。“iPhone時刻”的說法隨之變得十分流行,它代表了今天對ChatGPT的熱鬧討論里非常流行的思考方式——人們與AI終于找到了最佳交互界面,從此一切新技術(shù)都可以用來替代舊應(yīng)用。而這也成了很多中國的焦慮者參與ChatGPT“創(chuàng)業(yè)潮”的通行證。
但這種“iPhone時刻”的說法,有道理,但無益處。
與黃仁勛類似,微軟創(chuàng)始人比爾蓋茨和微軟現(xiàn)在的CEO納德拉也對ChatGPT做了與黃仁勛“互文”般的表達(dá):比爾蓋茨把它的意義比作互聯(lián)網(wǎng)的誕生,納德拉說它堪比工業(yè)革命。但對這幾家公司在最近這波浪潮里的角色稍加分析,就會明白,通過投資OpenAI而占盡ChatGPT紅利的微軟,和因為ChatGPT而再次進(jìn)入新的“收稅”模式的英偉達(dá),如此表達(dá)的另一層含義,是希望這場技術(shù)革命最終建立在它們自己的商業(yè)帝國之上。
至少現(xiàn)在來看,iPhone時刻還只是他們的,并不是我們的。
因此跟著這樣的思路去討論是偷懶的且無益的,尤其是作為ChatGPT沒有率先誕生在中國這個事已成事實的今天,它只會讓人們繼續(xù)關(guān)注被他人定義的“Chat”的部分,著急的去跟著iPhone做應(yīng)用,最終給iPhone添磚加瓦;它也會讓人們陷入窘迫而難以靜下來,無暇真正了解我們自己“GPT”部分的進(jìn)展。
在大模型上,一些從業(yè)者早已對“iPhone”時刻足夠警惕,對建立在它人底座上的模式創(chuàng)新已有充足反思和警惕,并已付諸了行動。
OpenAI在2020年發(fā)布了1750億參數(shù)的GPT3,根據(jù)公開資料,那之后中國公司和機(jī)構(gòu)發(fā)布的超過千億參數(shù)規(guī)模的大模型包括百度發(fā)布的Ernie(文心),華為發(fā)布的盤古大模型,和阿里巴巴發(fā)布的M6大模型等。
2021年,百度基于其已有的ERNIE模型框架,發(fā)布了百億參數(shù)的對話大模型PLATO-XL,到了最新發(fā)布的ERNIE 3.0 Zeus,模型已有千億級參數(shù)。
結(jié)合自身的PaddlePaddle訓(xùn)練框架,讓Ernie從一開始的對中文語境的優(yōu)化到現(xiàn)在得到全球研究者越來越多的關(guān)注。2021年4月, 華為對外公布了盤古大模型。根據(jù)公開資料,其在預(yù)訓(xùn)練階段學(xué)習(xí)了 40TB 的中文文本數(shù)據(jù),并也已達(dá)到千億級參數(shù)規(guī)模。
而2021年4月,阿里巴巴達(dá)摩院發(fā)布的270億參數(shù)語言大模型PLUG,被稱為中文版“GPT-3”。同年阿里巴巴還發(fā)布了國內(nèi)首個千億參數(shù)多模態(tài)大模型M6。
圖源:達(dá)摩院官網(wǎng)
阿里巴巴的這兩個大模型都在過去幾年繼續(xù)進(jìn)化, 2021年10月,PLUG模型實現(xiàn)2萬億參數(shù) ,2022年11月,它所屬的阿里通義-AliceMind,在中文語言理解領(lǐng)域權(quán)威榜單CLUE中首次超越人類成績。而M6在不斷提高著訓(xùn)練效率,2021年10月,達(dá)摩院使用512卡GPU即訓(xùn)練出全球首個10萬億參數(shù)大模型M6,同等參數(shù)規(guī)模能耗為此前業(yè)界標(biāo)桿的1%。并且,M6還在進(jìn)一步做多模態(tài)的打通。達(dá)摩院的諸多模型集成在2022年發(fā)布的“通義”大模型系列中。
這些大模型的進(jìn)步也引來了包括OpenAI在內(nèi)的同行的關(guān)注,OpenAI的前政策主管Jack Clark曾公開點評M6模型,稱它“規(guī)模和設(shè)計都非常驚人。
這看起來像是眾多中國的AI研究組織逐漸發(fā)展壯大的一種表現(xiàn)?!?/span>
可以看出,中國的參與者并不少,參與的也并不晚,成果也并非乏善可陳,否認(rèn)這一點是虛無的。而且,但凡親自訓(xùn)練過大模型的研究者都不難得出結(jié)論:最好的方式就是在已有建制的基礎(chǔ)上去繼續(xù)加速。
因為今天諸多對AI模型的研究已經(jīng)發(fā)現(xiàn),大模型許多能力上的驚人突破,并非一個線性的過程,而是會在模型尺寸達(dá)到一個量級時發(fā)生突然的“進(jìn)化”,也就是“突現(xiàn)”。不管你喜不喜歡,但事實就是,雖然AI看起來高大上,但它的突破需要的,的確是一次不期而至的“大力出奇跡”。
但如果留意最近一段時間的討論,會發(fā)現(xiàn)一些此前曾表示開發(fā)出大模型的機(jī)構(gòu)和領(lǐng)頭者或明星科學(xué)家,卻選擇跳離這些機(jī)構(gòu),避而不談曾經(jīng)高調(diào)宣揚的自己已有的進(jìn)展,放棄更接近突現(xiàn)的節(jié)點而去從零開始,背后原因可能不言自明。
一些人抓住“一生一遇”機(jī)會的方式,是追隨別人的iPhone時刻而去,試圖重新來過,過度興奮于“chat”高度擬人的實現(xiàn)效果帶來的資本與商業(yè)想象力。但那些真正在產(chǎn)業(yè)里摸爬的中國科技公司,那些真正花很多年的心血打造自己的大模型的中國人工智能科學(xué)家們心里清楚:真正的屬于自己的iPhone時刻,不在眾聲喧嘩之側(cè),不在“chat”本身,而是在“GPT”上,也就是自己曾經(jīng)多年的辛苦建模、訓(xùn)練和調(diào)參的基礎(chǔ)之上。
只有讓Chat的歸Chat,才能讓GPT的歸GPT,自己的GPT,比什么都重要。
論系統(tǒng)戰(zhàn),論持久戰(zhàn)
當(dāng)我們從這種“歷史在一夜之間改變”的興奮脫離出來,會明白大模型的競爭是一場全面戰(zhàn)爭,它像所有歷史上波瀾壯闊的技術(shù)變革一樣,也將是曠日持久的。
這種全面戰(zhàn)爭首先體現(xiàn)在它不只是某一個模型的問題,而是一個系統(tǒng)的問題。
在人們津津樂道的微軟借助OpenAI逆襲谷歌的故事里,有些被忽略的是微軟提供給OpenAI的云計算能力對ChatGPT的重要性。
根據(jù)公開資料,微軟為OpenAI的GPT3訓(xùn)練,提供了一個有一萬塊 GPU的分布式集群,并且這些昂貴的計算資源和計算能力也專門為OpenAI做了優(yōu)化。
微軟的云計算Azure,為OpenAI建立和部署了多個大規(guī)模的高性能計算(HPC)系統(tǒng),根據(jù)一些研究數(shù)據(jù),微軟Azure“與其他云服務(wù)對手相比,為每個GPU提供了近2倍的計算吞吐量,并且由于其網(wǎng)絡(luò)和系統(tǒng)軟件的優(yōu)化,可以近乎線性地擴(kuò)展到數(shù)千個GPU。在模型推理方面,微軟Azure更具成本效益,每美元的推理能獲得2倍的性能。”
這說明類似ChatGPT的大模型是AI+云計算的全方位競爭,需要超大規(guī)模智算平臺對芯片、系統(tǒng)、網(wǎng)絡(luò)、存儲到數(shù)據(jù)進(jìn)行全盤系統(tǒng)優(yōu)化。
這些作為基礎(chǔ)設(shè)施的計算平臺提供的不只是高效率的支持,往后更多的甚至是定制化的支持——一丁點的算力浪費,都會是這場競爭里致命的成本。
這種復(fù)雜的系統(tǒng)是以云計算為代表的新技術(shù)發(fā)展到極高復(fù)雜度階段的結(jié)果,而中國科技公司在這個技術(shù)周期里生長出來的技術(shù)自覺和為此付出的長期努力,讓它們也擁有了自己的復(fù)雜系統(tǒng),從而也有了參與這場ChatGPT競爭的“入場券”。
其中能力最為完備的當(dāng)屬阿里巴巴,因為云、數(shù)據(jù)、系統(tǒng)和芯片。
阿里云的飛天智算平臺在去IOE的過程中誕生,逐漸成長為一個超大規(guī)模的高性能計算集群,并且已是國內(nèi)唯一能實現(xiàn)萬卡規(guī)模的AI集群。它在一個超大規(guī)模高性能網(wǎng)絡(luò)中,構(gòu)建了一個可以持續(xù)進(jìn)化的智能算力系統(tǒng),與此同時,阿里云自研的高性能集合通信庫ACCL和自研的網(wǎng)絡(luò)交換機(jī)也建立了無擁塞、高性能的集群通訊能力。
據(jù)公開資料,飛天智算平臺的千卡并行效率達(dá)90%。針對數(shù)據(jù)密集型場景的大規(guī)模集群,還進(jìn)行了數(shù)據(jù)IO優(yōu)化,通過自研KSpeed和RDMA高速網(wǎng)絡(luò)架構(gòu),最高可將存儲IO性能提升10倍,將時延顯著降低了90%。此外飛天智算平臺的機(jī)器學(xué)習(xí)平臺PAI,專門針對AI大模型推理和訓(xùn)練場景進(jìn)行針對性優(yōu)化,可將計算資源利用率提高3倍以上,AI訓(xùn)練效率提升11倍,推理效率提升6倍。阿里的M6模型,在訓(xùn)練階段使用的正是阿里云機(jī)器學(xué)習(xí)PAI平臺自研的分布式訓(xùn)練框架EPL(Easy Parallel Library)。
這場全面戰(zhàn)爭還體現(xiàn)在,它并不是一場比拼誰更接近標(biāo)準(zhǔn)答案的戰(zhàn)爭。
圖源:Unsplash
大模型本身也是一個精妙的系統(tǒng),它不會只有一個答案,甚至無法只有一個答案。一個例證就是,ChatGPT的真正復(fù)現(xiàn)到今天依舊無人實現(xiàn)。一方面,是技術(shù)本身越來越閉源,另一方面,真正實現(xiàn)性能突破的許多關(guān)鍵環(huán)節(jié),有時真的是一種藝術(shù)性的存在,或者更直白的說,是碰運氣的過程,因此沒有答案可抄。
比如,根據(jù)GPT3的論文,這個模型的大小和數(shù)據(jù)量,是根據(jù)OpenAI自己的擴(kuò)展規(guī)律決定,因此對于另外一個模型,哪怕是同樣的算力條件,模型和數(shù)據(jù)的配比也可以有不同的思路,GPT3最終的配方是1750億參數(shù)和2500億token的數(shù)據(jù),而另一個知名的類似模型,DeepMind 旗下的Chinchilla,則是1100億參數(shù)和5000億token,但后者在一些性能上也與GPT3不相上下。也就是,任何一種“配方”都很難直接使用,它很大程度取決于基礎(chǔ)模型的特點,很多時候在那些模型的論文里簡單的一句結(jié)論,背后就是巨大的試錯成本。
這是挑戰(zhàn),但也是機(jī)遇所在:能最極致的做好“軟硬件結(jié)合”的模型和平臺,就有機(jī)會用最適合自己的配方更進(jìn)一步。
最典型的當(dāng)屬英偉達(dá)。當(dāng)幾乎所有的模型訓(xùn)練都需要在它的硬件上完成,最能發(fā)揮硬件性能的軟件框架自然也最可能由英偉達(dá)制造。英偉達(dá)發(fā)布的NeMo Megatron 就曾宣稱僅用 11 天就完成了 GPT-3 的訓(xùn)練,還和微軟合作,在 6 周內(nèi)完成了 Megatron 的一個5300 億參數(shù)模型的訓(xùn)練。
同樣的,阿里云的計算硬件,軟件平臺和大模型的全方位系統(tǒng)優(yōu)化,也帶來效率的提升。通義-M6已經(jīng)實現(xiàn)使用512 位GPU在10天內(nèi)訓(xùn)練出具有可用水平的10萬億模型的能力,相比GPT-3,同等參數(shù)規(guī)模能耗僅為其1%,此外達(dá)摩院研發(fā)的超大模型落地關(guān)鍵技術(shù)S4框架(Sound、Sparse、Scarce、Scale)也提供了“濃縮”能力,讓百億參數(shù)大模型在高壓縮率下仍能高精度完成多個任務(wù),使“通義”系列模型已在服務(wù)的200多個場景中實現(xiàn)了2%-10%的應(yīng)用效果提升。
也就是說,這場全面競爭里最需要的是一個自己的方案,一個能自主掌控更多環(huán)節(jié)從而實現(xiàn)全局調(diào)優(yōu)的自己的方案。這樣的能力更重要的意義在于,它們將不只是用于跟隨——面對一場全面的技術(shù)浪潮,人們往往習(xí)慣在短期過于興奮與高估,激動的把開局理解為終結(jié),但事實上技術(shù)浪潮會是長期的。這也是每一場全面戰(zhàn)爭里都會發(fā)生的事情。而擁有自己的復(fù)雜系統(tǒng)掌控能力和基于此的技術(shù)理解能力,會在長期的競爭里提供一定的技術(shù)定力。
對于當(dāng)前的ChatGPT來說,它其實有著鮮明的開局感:它基本上還是一個語言模型,而AI研究者這些年已經(jīng)開始奮力追逐多模態(tài)模型——過往人工智能模型有些八仙過海的意味,架構(gòu)眾多,但2017年之后,Transformer的出現(xiàn)改變了這種趨勢,這之后算法架構(gòu)從包括ChatGPT的NLP到視覺都迅速統(tǒng)一到以Transformer為底層架構(gòu)的路線,于是不同模態(tài)的模型更有了統(tǒng)一的可能。因此,某種意義上,ChatGPT可能只是未來真正“恐怖”的多模態(tài)大模型的第一個明確了的組成部分。
這樣的一場全面戰(zhàn)爭剛剛開始。曾經(jīng)因為相信所以看見而衍生出來的技術(shù)路線,讓一些中國互聯(lián)網(wǎng)公司在技術(shù)浪潮來臨前握住了那最初的浪花,而今天ChatGPT預(yù)示了大浪終將到來,對于那些用了多年建立起來自己的技術(shù)完備能力的中國互聯(lián)網(wǎng)巨頭來說,終于到了因為看見所以相信的時刻。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。