誰(shuí)拖了中國(guó)ChatGPT的后腿?
郵箱|tluo@pingwest.com
ChatGPT已經(jīng)成了全球信息技術(shù)產(chǎn)業(yè)界毋庸置疑的現(xiàn)象級(jí)產(chǎn)品。
它以“通用人工智能”的名義,跟人類嘮家常,幫人們起草郵件和律師信,回答一些玄奧的終極哲學(xué)問(wèn)題,寫(xiě)一段可用的Python代碼,回答一些看似需要復(fù)雜和遞進(jìn)邏輯的問(wèn)題,根據(jù)一些人物設(shè)定撰寫(xiě)一段電影劇本,書(shū)寫(xiě)一首優(yōu)美的情詩(shī),捉刀大學(xué)生的論文作業(yè)……似乎人類歷史上還沒(méi)有這么一個(gè)全能的AI物種。比爾蓋茨說(shuō)ChatGPT出現(xiàn)的意義“不亞于互聯(lián)網(wǎng)的誕生”,微軟CEO納德拉(Satya Nadella)說(shuō)它堪比工業(yè)革命,人工智能口頭愛(ài)好者們又一次驚呼“奇點(diǎn)”來(lái)臨,普通人再度擔(dān)心自己的工作被ChatGPT這樣的全能型AI助手取代……從IBM的“深藍(lán)”,到Google的AlphaGo,再到OpenAI的ChatGPT,25年過(guò)去了,AI在不斷進(jìn)化,人類對(duì)AI的日常反應(yīng)卻看不出什么心智上的成熟,這真的是一件令A(yù)I開(kāi)心的事。
我已經(jīng)用ChatGPT干過(guò)諸多不可描述之事,發(fā)現(xiàn)它并不能每每得心應(yīng)手,卻能在一些看似更艱深的問(wèn)題上給出更出色的答案和解決方案。比如你問(wèn)它比亞迪能不能打敗特斯拉,它可能會(huì)給出一些結(jié)構(gòu)清晰而無(wú)奇、事實(shí)謬誤頗多同時(shí)又毫無(wú)個(gè)性的論述;但如果你問(wèn)它自動(dòng)駕駛將如何改變一輛汽車的工業(yè)設(shè)計(jì),它倒是能夠從底盤(pán)革新、內(nèi)飾變化、數(shù)字娛樂(lè)和外型突破等方面給出充滿由內(nèi)至外想象的論述。從整體而言,ChatGPT相當(dāng)?shù)牟煌昝?,尤其是在提供令人信服的?zhǔn)確性方面,但它在提供結(jié)構(gòu)化的信息論述、打開(kāi)想象力和解放創(chuàng)造力等領(lǐng)域經(jīng)常令人類覺(jué)得驚艷。你說(shuō)不上來(lái)它對(duì)你有什么無(wú)懈可擊的具體用處,但它又能幫你實(shí)現(xiàn)和完成一些瑣碎的、冗余的甚至有創(chuàng)造力的事。
正是這么一個(gè)看似無(wú)用卻有用、看似有用卻無(wú)用的ChatGPT,推動(dòng)它的母公司OpenAI被微軟追加累計(jì)的超過(guò)100億美元的投資,它用兩天時(shí)間突破100萬(wàn)用戶,F(xiàn)acebook曾經(jīng)花了305天;它突破1億用戶花了兩個(gè)月,就連TikTok也需要9個(gè)月——請(qǐng)記住,與Facebook和TikTok不同,ChatGPT還不是一個(gè)獨(dú)立的消費(fèi)級(jí)互聯(lián)網(wǎng)產(chǎn)品,它仍然僅是一個(gè)采用了GPT-3自然語(yǔ)言模型的包含1750億參數(shù)的大型神經(jīng)網(wǎng)絡(luò)——當(dāng)它被優(yōu)先授權(quán)給微軟集成在Office和Bing等辦公軟件和搜索引擎服務(wù)的時(shí)候,才真正地變成一個(gè)“可用”的產(chǎn)品。
但這已經(jīng)讓中國(guó)的人工智能獨(dú)角獸們夠嫉妒的了。
500名員工,公司整體估值接近300億美元,這是OpenAI;動(dòng)輒幾千人,公司估值/市值充其量10-20億美元,這是中國(guó)的多家AI“小巨頭”。
因?yàn)槿诵Ш蛢r(jià)值的巨大差距,更因?yàn)镃hatGPT對(duì)全人類現(xiàn)實(shí)社會(huì)驟然釋放的影響力,ChatGPT的誕生給中國(guó)人工智能領(lǐng)域的刺激是不小的。很多人又跳出來(lái)了,感慨中美人工智能差距進(jìn)一步拉大,中國(guó)想趕上這波浪潮“任重道遠(yuǎn)”。還有一些人,又開(kāi)始熱衷探討為什么中國(guó)沒(méi)有自己的ChatGPT,結(jié)論仍然是“中國(guó)缺乏創(chuàng)新土壤”和“中國(guó)互聯(lián)網(wǎng)公司都在搞直播和買(mǎi)菜”這樣,既不負(fù)責(zé)又罔顧事實(shí)的蠢話。
中國(guó)互聯(lián)網(wǎng)公司并沒(méi)有都在搞直播和買(mǎi)菜,他們?cè)趶氖掳雽?dǎo)體開(kāi)發(fā)、AI模型研究和自動(dòng)駕駛;美國(guó)的互聯(lián)網(wǎng)公司搞直播、買(mǎi)菜尤其是互聯(lián)網(wǎng)金融的時(shí)候也很風(fēng)生水起,那些拿著手電筒和放大鏡拼命找自己?jiǎn)栴},極力美化對(duì)手,用遮瑕霜不遺余力涂抹對(duì)手的問(wèn)題,把原因歸咎于簡(jiǎn)單粗暴的理由的人,可以閉上你們的嘴,這不是反思中國(guó)為什么不能率先誕生自己的生成式人工智能模型的正確姿勢(shì)。
作為在人工智能和自然語(yǔ)義處理領(lǐng)域積累最多的中國(guó)互聯(lián)網(wǎng)公司,百度過(guò)去五年一直在搞自己的深度學(xué)習(xí)大模型“飛槳“(Paddle Paddle),甚至用自己的通用AI芯片“昆侖芯”訓(xùn)練自己的模型——它們是百度訓(xùn)練自己的“ChatGPT”的基本環(huán)境和前提。阿里巴巴、字節(jié)跳動(dòng)和滴滴也都有基于自身需求的自然語(yǔ)義訓(xùn)練模型。可以說(shuō),在訓(xùn)練復(fù)雜的上百億參數(shù)的自然語(yǔ)義模型方面,中國(guó)的公司和研究機(jī)構(gòu)的“家底”并不薄弱,起點(diǎn)也并不比美國(guó)同行低——至少在2016年前后的時(shí)候是如此。這幾年中美人工智能界在大模型領(lǐng)域產(chǎn)生的差距,不是意識(shí)、起點(diǎn)和能力的問(wèn)題,而是道路和方法的問(wèn)題。
中國(guó)與美國(guó)在類ChatGPT的人機(jī)對(duì)話模型領(lǐng)域的差距,也不是所謂的監(jiān)管導(dǎo)致的。如果你與ChatGPT就一些更豐富的宗教、文化、民族和地緣政治等議題展開(kāi)過(guò)坦率的交流的話,你會(huì)意識(shí)到它在看似拒絕和審慎討論這些議題的背后隱藏著某些特定的立場(chǎng)傾向,是與美國(guó)社會(huì)普遍公認(rèn)的主流價(jià)值觀微妙重合的??梢哉f(shuō),任何一個(gè),而不是某一個(gè)自然語(yǔ)義的復(fù)雜模型,其模型建構(gòu)、語(yǔ)料采集、訓(xùn)練和參數(shù)調(diào)整的過(guò)程,都是基于特定價(jià)值體系的“內(nèi)容審查”的過(guò)程,都有著維系其價(jià)值體系的自覺(jué)。我們不是應(yīng)該不應(yīng)該在自然語(yǔ)義模型里“生成”中國(guó)的價(jià)值立場(chǎng)的問(wèn)題,而是它該如何生成,才能真正地制衡英語(yǔ)主導(dǎo)全球互聯(lián)網(wǎng)語(yǔ)料庫(kù)必然導(dǎo)致的世界觀與文化霸權(quán),加強(qiáng)中文語(yǔ)言理解基準(zhǔn)在全球自然語(yǔ)義處理體系的權(quán)重,進(jìn)而為世界人工智能和人機(jī)對(duì)話的發(fā)展提供文化上的多樣性。
我也嚴(yán)重不同意中文互聯(lián)網(wǎng)信息內(nèi)容質(zhì)量太糟糕導(dǎo)致中國(guó)類ChatGPT模型語(yǔ)料源頭被“污染”的說(shuō)法,這同樣是既偷懶又顯得大聰明的判斷。因?yàn)榛ヂ?lián)網(wǎng)上的信息總量原因,英語(yǔ)內(nèi)容無(wú)疑是世界上最多的,質(zhì)量堪憂的極端化內(nèi)容也是最多的,它們都會(huì)影響自然語(yǔ)義模型訓(xùn)練的過(guò)程和結(jié)果。ChatGPT在早期的訓(xùn)練中優(yōu)先使用內(nèi)容質(zhì)量較高的社交論壇Reddit上的高贊內(nèi)容,是有特定的語(yǔ)料選擇傾向的。如果中國(guó)優(yōu)先選擇知乎和得到等知識(shí)類社區(qū),以及主流媒體優(yōu)先作為語(yǔ)義模型的語(yǔ)料庫(kù)的話,就不存在語(yǔ)料被污染的問(wèn)題。更遑論以大部分持“中文內(nèi)容質(zhì)量低”的人們的外語(yǔ)水平和閱讀廣度,根本不足以支撐他們的論斷。
但是無(wú)論如何,ChatGPT的橫空出世,對(duì)我這么一個(gè)多年來(lái)一直呼吁“告別硅谷崇拜”的人來(lái)說(shuō),的確是一個(gè)不大不小的刺激,也是一個(gè)觀念的挑戰(zhàn)。
這不是因?yàn)槲矣X(jué)得中國(guó)和美國(guó)在人工智能領(lǐng)域競(jìng)爭(zhēng)的差距就此拉大了,而是因?yàn)镃hatGPT這樣的通用人工智能人機(jī)對(duì)話模型,是一個(gè)真正可能從全人類——而不是某一個(gè)特定領(lǐng)域和行業(yè)的角度,推動(dòng)社會(huì)生產(chǎn)協(xié)作與文明進(jìn)程的工具。其意義大于移動(dòng)互聯(lián)網(wǎng)的出現(xiàn),堪比電子郵件和搜索引擎的誕生。作為一個(gè)人工智能大國(guó),中國(guó)早就不是電子郵件和搜索引擎誕生時(shí)期的信息技術(shù)產(chǎn)業(yè)一窮二白的國(guó)家了,但是,我們卻沒(méi)有讓這類能影響人類文明進(jìn)程的通用人工智能的創(chuàng)新首先發(fā)生在中國(guó),訓(xùn)練一個(gè)基礎(chǔ)語(yǔ)料由中國(guó)文化與價(jià)值體系為建構(gòu)的模型。
更何況,ChatGPT的模型訓(xùn)練方式,很大程度上依靠的是“大力出奇跡”的參數(shù)升級(jí)、反復(fù)訓(xùn)練和模型依據(jù)生成內(nèi)容反饋持續(xù)迭代優(yōu)化——這原本是中國(guó)團(tuán)隊(duì)最擅長(zhǎng)的工作方法。當(dāng)一家美國(guó)的創(chuàng)業(yè)公司用從微軟融來(lái)的錢(qián)不惜代價(jià)投入巨額算力成本,大量雇傭非洲和中東的數(shù)據(jù)工人進(jìn)行信息標(biāo)注、用最高效率的迭代與Google這樣的巨頭進(jìn)行自研語(yǔ)義處理大模型的“軍備競(jìng)賽”時(shí),你還是有一種很不真實(shí)的感覺(jué)——這究竟是一家舊金山公司還是一家深圳公司。
像ChatGPT這樣的自然語(yǔ)義處理模型應(yīng)該可以誕生在中國(guó)但卻沒(méi)有誕生在中國(guó),其原因還得從中國(guó)從事人工智能的科技公司——無(wú)論巨頭還是創(chuàng)業(yè)公司這些年在干什么開(kāi)始說(shuō)。
很多人可能從來(lái)沒(méi)意識(shí)到的一個(gè)問(wèn)題是:像ChatGPT這樣的超大規(guī)模通用自然語(yǔ)義處理模型,由一家AI創(chuàng)業(yè)公司建構(gòu)最可能產(chǎn)生奇跡,而在一家科技巨頭內(nèi)部通常不會(huì)實(shí)現(xiàn)更好的結(jié)果。這就是為什么Google的LaMDA對(duì)話應(yīng)用模型和近期倉(cāng)促上陣的Bard都沒(méi)有大放異彩的原因,也是百度接下來(lái)勢(shì)必面臨的挑戰(zhàn)。
為什么?首先是因?yàn)橥ㄓ米匀徽Z(yǔ)義處理建模太燒錢(qián)了。其實(shí),燒錢(qián)通常并不是大公司的本事,反倒是創(chuàng)業(yè)公司的特權(quán)。科技巨頭幾乎都是上市公司,百億美元級(jí)別的投資砸在一項(xiàng)相當(dāng)長(zhǎng)時(shí)期看不到回報(bào)的事上,首席財(cái)務(wù)官在面對(duì)董事會(huì)和股東大會(huì)時(shí)的壓力是很大的,也經(jīng)常是被股價(jià)懲罰的,這導(dǎo)致大公司不敢做大冒險(xiǎn),不大冒險(xiǎn)就不會(huì)有大迭代。什么叫“大力出奇跡”?就是先花大錢(qián)出大力,然后再祈禱奇跡的發(fā)生,而不是默認(rèn)一定得出現(xiàn)奇跡,然后再?zèng)Q定花錢(qián)出力。
可惜,大公司只能是后者。這也是為什么即便從ChatGPT受益頗豐的微軟,也只敢從一開(kāi)始的10億美元,歷時(shí)四年,直到今年的百億美元,一筆一筆,持續(xù)地追加投資,以支持OpenAI在微軟的“體外”,多年如一日地訓(xùn)練GPT模型。微軟通過(guò)投資OpenAI獲得的股權(quán)享有整合ChatGPT模型能力進(jìn)入其Office和搜索引擎的優(yōu)先權(quán),它未來(lái)會(huì)不會(huì)吃掉OpenAI可能是一件不太好說(shuō)的事,但至少市值近萬(wàn)億美元,一年收入幾百億美元的微軟,是絕對(duì)不敢一開(kāi)始就“大力出奇跡”,兀自憑一己之力訓(xùn)練這個(gè)模型的。
其次,因?yàn)槿藗儗?duì)科技巨頭從事創(chuàng)新事業(yè)的容錯(cuò)度很低,而對(duì)創(chuàng)業(yè)公司的錯(cuò)誤和偏差較為優(yōu)容。Google為了應(yīng)對(duì)以ChatGPT的壓力,倉(cāng)促推出了人機(jī)對(duì)話測(cè)試版Bard,被發(fā)現(xiàn)一些對(duì)話出現(xiàn)了基本的事實(shí)錯(cuò)誤,于是被無(wú)限放大,市值一夜蒸發(fā)千億美元。事實(shí)上Google不是不清楚這一點(diǎn),要不是被逼急了,它也不會(huì)這么冒失。Google在2021年公布的LaMDA模型,參數(shù)級(jí)別和信息搜索能力都明顯高于當(dāng)時(shí)OpenAI訓(xùn)練的GPT-3,但Google遲遲不敢公測(cè)其效果,就是因?yàn)楹ε滤霈F(xiàn)失誤,引發(fā)公眾的不信任和股價(jià)的下滑。
Google在乎的,OpenAI都不在乎。從ChatGPT發(fā)布的第一天起,它就公開(kāi)地說(shuō)自己沒(méi)有信息檢索能力,語(yǔ)料庫(kù)也只到2021年12月,更回答不了很多關(guān)于價(jià)值和道德判斷的問(wèn)題,還經(jīng)常犯事實(shí)錯(cuò)誤。對(duì)ChatGPT的自我“擺爛”,測(cè)試者很寬容地接受了,對(duì)它在編程、文學(xué)創(chuàng)作、格式化寫(xiě)作、尋醫(yī)問(wèn)診等領(lǐng)域展現(xiàn)的信息關(guān)聯(lián)、情感表達(dá)、邏輯結(jié)構(gòu)、思維連貫性一系列能力驚嘆不已,對(duì)它犯的錯(cuò)誤輕輕帶過(guò)。
2019年3月,在GPT-2模型取得前所未有的成功后,成立了4年的OpenAI決定由一家非盈利的基金會(huì)轉(zhuǎn)變成為一家商業(yè)公司。畢竟沒(méi)有任何一家基金會(huì)能受得了它的首席科學(xué)家年薪150萬(wàn)美元,2019年5月,山姆·奧特曼(Sam Altman)出任OpenAI的CEO。接著,OpenAI獲得了微軟的10億美元投資。2020年5月,OpenAI推出的GPT-3模型,參數(shù)從GPT-2的15億陡升至1750億,形成了一個(gè)前所未有強(qiáng)大的自動(dòng)學(xué)習(xí)系統(tǒng)。
可見(jiàn),一家含著金湯匙出生、融得到巨資、有巨頭業(yè)務(wù)捆綁加持的人工智能初創(chuàng)公司,從事通用的人工智能自然語(yǔ)義模型建構(gòu)與開(kāi)發(fā),不計(jì)成本投入模型訓(xùn)練,是最理想的狀態(tài)。最強(qiáng)大的模型帶來(lái)的想象力和商業(yè)回報(bào)足以刺激微軟和其它的投資者。
那么,怎么這個(gè)邏輯在中國(guó)就跑不通了?中國(guó)曾經(jīng)有沒(méi)有一個(gè)強(qiáng)大的通用自然語(yǔ)義人工智能模型,哪怕就是一個(gè)雛形?
要回答這個(gè)問(wèn)題,不妨看看微軟首次投資OpenAI的時(shí)間:2019年7月。在微軟押注OpenAI的GPT模型之后4個(gè)月,也就是2019年11月,微軟負(fù)責(zé)必應(yīng)搜索業(yè)務(wù)、同時(shí)也是微軟人工智能最高負(fù)責(zé)人的全球資深副總裁、中國(guó)香港籍計(jì)算機(jī)科學(xué)家沈向洋宣布離開(kāi)工作了20余年的微軟。而沈向洋對(duì)微軟通用人工智能模型的最后一個(gè)貢獻(xiàn),就是由微軟亞洲互聯(lián)網(wǎng)工程院在2014年主導(dǎo)研發(fā)的聊天機(jī)器人——小冰。
2020年7月,小冰從微軟獨(dú)立出來(lái),成為一家中國(guó)的人工智能創(chuàng)業(yè)公司,沈向洋出任董事長(zhǎng),原微軟亞洲互聯(lián)網(wǎng)工程院常務(wù)副院長(zhǎng)李笛出任CEO。小冰獨(dú)立之際已發(fā)展至第六代以上,產(chǎn)品形態(tài)涉及對(duì)話式人工智能機(jī)器人、智能語(yǔ)音助手、人工智能創(chuàng)造內(nèi)容提供者和一系列垂直領(lǐng)域解決方案。小冰曾經(jīng)引發(fā)公眾討論的,除了充滿情感和女性性征的聊天機(jī)器人之外,還有它在漢語(yǔ)詩(shī)歌創(chuàng)作領(lǐng)域的驚艷表現(xiàn)——她出過(guò)一本詩(shī)集《陽(yáng)光失了玻璃窗》,收獲了不少好評(píng),以及更多的爭(zhēng)議。
毫無(wú)疑問(wèn),一個(gè)能寫(xiě)詩(shī),進(jìn)行簡(jiǎn)單情感和基于常識(shí)的對(duì)話的小冰機(jī)器人,是幾年前全世界范圍表現(xiàn)上乘的對(duì)話式通用人工智能模型。
沈向洋主導(dǎo)的團(tuán)隊(duì)不可能不懂搜索,更不可能不懂人工智能。而沈向洋從微軟出走和小冰的“獨(dú)立”,加之微軟CEO納德拉主導(dǎo)的對(duì)OpenAI的投資和合作綁定,其實(shí)是中美最頂級(jí)的人工智能操盤(pán)手,在通用人工智能模型領(lǐng)域的一次正式的分道揚(yáng)鑣。
那么,今天的小冰,還寫(xiě)詩(shī)么?它在做什么?
這兩年,小冰早就不寫(xiě)詩(shī)了。它在忙著商業(yè)化。它成立了游戲工作室,為游戲提供NPC腳本對(duì)話內(nèi)容;它與冬奧會(huì)合作,提供自由式滑雪空中技巧視覺(jué)評(píng)分系統(tǒng);它為萬(wàn)得資訊提供人工智能生成的上市公司公告文本摘要;它給萬(wàn)科等企業(yè)定制了客服專用的虛擬數(shù)字人……它在努力地成為一家“賦能”各行各業(yè),同時(shí)讓自己能造血賺錢(qián)的人工智能解決方案公司。
一句話,昔日代表了通用自然語(yǔ)義人工智能模型較高水準(zhǔn)、中國(guó)人撐起全部格局的人工智能團(tuán)隊(duì),現(xiàn)在成了一個(gè)生成式人工智能與決策型人工智能混合的、為具體的場(chǎng)景提供具體解決方案的人工智能供應(yīng)商。
你不能說(shuō)這是小冰的“墮落”,畢竟它只從資本市場(chǎng)融資了數(shù)億元人民幣。按照ChatGPT的模型訓(xùn)練方法,這些錢(qián)一天就花完了。沒(méi)了微軟的護(hù)身庇佑,小冰得自己顧自己的命??墒牵乙矎膩?lái)沒(méi)聽(tīng)說(shuō)過(guò)百度、騰訊或者字節(jié)跳動(dòng),想過(guò)要投資小冰,支持它繼續(xù)搞通用自然語(yǔ)義人工智能的大模型。
不僅僅是小冰。過(guò)去幾年中國(guó)也有其它從事通用人工智能自動(dòng)建模和異構(gòu)計(jì)算,讓國(guó)內(nèi)外7-8種芯片通過(guò)該模型接入軟件的創(chuàng)業(yè)團(tuán)隊(duì),但只要是拿這個(gè)模型出來(lái)融資,就搞不定任何的一個(gè)投資人。中國(guó)的投資機(jī)構(gòu)從未表現(xiàn)過(guò)對(duì)通用人工智能模型的興趣,和哪怕一點(diǎn)點(diǎn)的想象力。
“超過(guò)85%的投資人一上來(lái)就要求我們介紹產(chǎn)品的場(chǎng)景,我們說(shuō)我們幫GPU對(duì)接軟件生態(tài),連英偉達(dá)都用我們的模型,投資人說(shuō)這個(gè)不算場(chǎng)景。我們說(shuō)我們也有客戶,衛(wèi)星、碼頭、智慧城市和智慧工業(yè)的研究,他們說(shuō)你干得太散了,我們不投”。這是我自己聽(tīng)到過(guò)的做通用人工智能模型的創(chuàng)業(yè)者對(duì)我的吐槽。
眾所周知,中國(guó)的VC是最喜歡“教育”創(chuàng)業(yè)者的,當(dāng)然也少不了教育從事人工智能創(chuàng)業(yè)的科學(xué)家。“你得在這個(gè)行業(yè)有點(diǎn)數(shù)據(jù)”,這是他們最愛(ài)教育AI創(chuàng)業(yè)者的一句話。
在某一個(gè)行業(yè)有數(shù)據(jù),而且要專注在某一個(gè)細(xì)分領(lǐng)域提供解決方案,這是中國(guó)大多數(shù)號(hào)稱投資人工智能的VC和PE們的思維定式。然后看的就是“場(chǎng)景有多大”,安防攝像頭的場(chǎng)景足夠大,于是估值模型就變成了中國(guó)這么大,能安多少個(gè)攝像頭?每個(gè)攝像頭多少錢(qián)?總的攝像頭盤(pán)子有多大?好,盤(pán)子足夠大,攝像頭這個(gè)細(xì)分領(lǐng)域我們投了。再看看港口智慧物流,中國(guó)有多少個(gè)港口?有多少個(gè)是深水港口?每個(gè)港口碼頭能為AI解決方案付多少錢(qián)?原來(lái)就付這么點(diǎn)兒錢(qián)啊,看來(lái)“港口”這個(gè)場(chǎng)景不夠大,那我們不投。AI虛擬數(shù)字人做客服?能跟元宇宙掛上啊,那有故事有想象力,好,我們可以投投試試。
所以,你看到的情況就是,中國(guó)的人工智能“四小龍”基本都在做攝像頭和人臉識(shí)別的生意,都變成了AI的項(xiàng)目實(shí)施和集成商,商業(yè)模式一如30年前的東軟和軟通動(dòng)力,自己活得舉步維艱,巨額虧損,還得撐著中國(guó)人工智能產(chǎn)業(yè)的排面,撐著人工智能這一領(lǐng)域的估值和想象力。
在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),幾乎沒(méi)有哪個(gè)人工智能領(lǐng)域的投資人發(fā)自內(nèi)心地相信一個(gè)通用的模型能在各個(gè)行業(yè)復(fù)用。其中偶爾有幾個(gè)對(duì)通用模型有點(diǎn)耐心和興趣的,基本都是人民幣基金,美元基金對(duì)中國(guó)團(tuán)隊(duì)搞通用模型的嘗試真的是興趣闕如。你以為是他們通過(guò)對(duì)比OpenAI和Google這樣的公司的模型訓(xùn)練難度和水平,從而覺(jué)得中國(guó)團(tuán)隊(duì)做起這個(gè)事來(lái)有差距?那你還真是想多了。他們知道GPT模型研發(fā)是怎么回事的時(shí)間,也就是最近這倆月的事。
那些大言不慚“在我眼里商湯和曠視就是賣(mài)安防攝像頭的”的一線投資經(jīng)理,那些傲然地跟創(chuàng)業(yè)者說(shuō)“你這個(gè)模型又不是場(chǎng)景”的一線投資合伙人,更遑論那些歷史上幾乎不投人工智能,過(guò)去這么多年一直在鼓搗中國(guó)創(chuàng)業(yè)者“出?!备慵用茇泿诺拿涝顿Y基金的合伙人,今天都突然搖身一變,宣稱要支持創(chuàng)業(yè)者搞“中國(guó)的ChatGPT”了。那么你倒可以想想,他們的信誓旦旦和躊躇滿志,含有幾分對(duì)通用人工智能模型的理解和真誠(chéng),又有幾分是投機(jī)和算計(jì)。
你更可以想想,一個(gè)超級(jí)自然語(yǔ)義模型的訓(xùn)練可能一天就得燒幾千萬(wàn)甚至上億人民幣,更何況現(xiàn)在提供大模型訓(xùn)練的算力模塊——世界頂級(jí)的GPU,因?yàn)槊绹?guó)的無(wú)理禁運(yùn)而變得越來(lái)越難以獲取。以那些投資人過(guò)去這么多年的心性和行事風(fēng)格,他們又能堅(jiān)持得了幾天,肯說(shuō)服投委會(huì)投多少筆錢(qián)進(jìn)去,還是能幫這些創(chuàng)業(yè)團(tuán)隊(duì)搞定GPU的問(wèn)題?不定哪天,弄不好也就半年之后,他們就又開(kāi)始催著這些做通用模型的團(tuán)隊(duì),盡快“在細(xì)分領(lǐng)域?qū)崿F(xiàn)商業(yè)化”。
以百度對(duì)飛槳PaddlePaddle模型投入的堅(jiān)持,尚且不可避免它從一開(kāi)始就將這個(gè)模型產(chǎn)業(yè)實(shí)踐化,盡快追求在不同行業(yè)的商業(yè)化。而在很大程度上,通用人工智能大模型的訓(xùn)練,存在著海量數(shù)據(jù)、高質(zhì)量有創(chuàng)造力的內(nèi)容輸出和產(chǎn)業(yè)應(yīng)用落地的“不可能之三角”。
能實(shí)現(xiàn)海量數(shù)據(jù)和高質(zhì)量有創(chuàng)造力的內(nèi)容輸出,就勢(shì)必不能快速應(yīng)用于某一個(gè)產(chǎn)業(yè)的具體落地——比如ChatGPT。
要想在人類創(chuàng)造的互聯(lián)網(wǎng)最大范圍的海量數(shù)據(jù)里創(chuàng)造具體的產(chǎn)業(yè)落地場(chǎng)景,就一定無(wú)法提供最高質(zhì)量的結(jié)果,因?yàn)榛诤A繑?shù)據(jù)的內(nèi)容生成與精準(zhǔn)決策系統(tǒng)一定存在沖突——這其實(shí)是個(gè)廢物。
如果想實(shí)現(xiàn)高質(zhì)量的內(nèi)容輸出,以輔助精準(zhǔn)的產(chǎn)業(yè)落地場(chǎng)景決策,就一定得犧牲最海量的數(shù)據(jù),而以大多數(shù)精準(zhǔn)的產(chǎn)業(yè)場(chǎng)景所擁有的數(shù)據(jù),是無(wú)法支撐真正的大型模型訓(xùn)練和研究的——這是中國(guó)絕大多數(shù)“產(chǎn)業(yè)細(xì)分”人工智能解決方案今天面臨的困境,也是所謂“產(chǎn)業(yè)ChatGPT”是個(gè)換湯不換****的偽命題的原因。
那些今天摩拳擦掌要大舉殺入“中國(guó)的ChatGPT”的創(chuàng)業(yè)者和投資人們,且不說(shuō)你們兜里有幾個(gè)錢(qián)和幾塊GPU,既然都上了這艘船,都覺(jué)得自己攥著船****,那通用人工智能的“不可能之三角”,你們決定舍掉哪一個(gè)角?這是個(gè)首先得想清楚的問(wèn)題。
換而言之,哪個(gè)投資機(jī)構(gòu)——無(wú)論是財(cái)務(wù)投資機(jī)構(gòu)還是大公司的投資部門(mén),有持之以恒數(shù)年如一日投入訓(xùn)練自然語(yǔ)義大模型,無(wú)限拉長(zhǎng)回報(bào)周期的定力?畢竟歷史告訴我們,這是一群最沒(méi)有定力,最著急找接盤(pán)俠的人。
中國(guó)從來(lái)就不缺優(yōu)秀的創(chuàng)業(yè)者和科學(xué)家,在人工智能領(lǐng)域同樣不例外。中國(guó)和美國(guó)科技公司在人工智能領(lǐng)域的水平和積累是全球范圍內(nèi)最接近的,至少幾年之前中國(guó)和美國(guó)在自然語(yǔ)義大模型的建構(gòu)和訓(xùn)練上的差距也并不大。但是中國(guó)確實(shí)缺一些視野更開(kāi)闊、不人云亦云、有定力有遠(yuǎn)見(jiàn)的投資機(jī)構(gòu)和投資人。
沈向洋、李笛、馬維英、王小川和李志飛等這些人,他們出來(lái)做通用自然語(yǔ)義大模型的創(chuàng)業(yè)項(xiàng)目都挺靠譜,但問(wèn)題是得換一批背后支持他們的投資機(jī)構(gòu)和投資人,有一些太擅長(zhǎng)“做局”和投機(jī),在加密貨幣等賽道上浸淫太深的投資機(jī)構(gòu)混雜在其中,是應(yīng)該被拉進(jìn)黑名單的。
說(shuō)句實(shí)話,盡管過(guò)去這么多年都沒(méi)什么正經(jīng)的投資機(jī)構(gòu)在看通用人工智能模型,可畢竟還是有一些機(jī)構(gòu)也投了不少回報(bào)周期極長(zhǎng)的人工智能公司。比如那些投資了中國(guó)本土激光雷達(dá)和自動(dòng)駕駛解決方案的VC,他們是對(duì)樹(shù)立中國(guó)在全球汽車產(chǎn)業(yè)百年未有之變局中全新的競(jìng)爭(zhēng)力做出過(guò)貢獻(xiàn)的。還比如那些投資了中國(guó)本土GPU的VC——這注定是一個(gè)充滿艱險(xiǎn),面臨美國(guó)封禁和打壓,回報(bào)周期極其漫長(zhǎng)的賽道;但這些本土新崛起的GPU玩家——無(wú)論是瀚博、壁仞還是其它,它們未來(lái)是可能為中國(guó)的通用自然語(yǔ)義處理模型提供彈****的。它們背后的投資人,如果有一天真的謀定思動(dòng),出手加持中國(guó)的自然語(yǔ)義大模型項(xiàng)目的話,我對(duì)他們可能有一些更不一樣的預(yù)期和信心。
只是這樣不咋咋呼呼、不拖后腿、不急功近利的投資人和投資機(jī)構(gòu),不是太多,而是太少,但中國(guó)的自然語(yǔ)義模型建構(gòu)和訓(xùn)練需要這樣的投資人和投資機(jī)構(gòu)——無(wú)論它是財(cái)務(wù)投資者,還是戰(zhàn)略投資方,或是有國(guó)家意志加持的資本機(jī)構(gòu)。
中國(guó)要有自己的通用自然語(yǔ)義大模型,它需要有為全球通用人工智能提供中國(guó)智慧、中國(guó)價(jià)值體系和中國(guó)方案的愿景,需要從語(yǔ)料庫(kù)選擇、模型建構(gòu)與訓(xùn)練、參數(shù)調(diào)整的全過(guò)程前置規(guī)避風(fēng)險(xiǎn)和法律、道德與倫理問(wèn)題,更需要的是定力和耐心。
無(wú)論如何,它不能投機(jī)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。