新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > 大模型亂斗 GPT-4迎來(lái)“雙子”星?

大模型亂斗 GPT-4迎來(lái)“雙子”星?

作者:陳玲麗 時(shí)間:2023-12-14 來(lái)源:電子產(chǎn)品世界 收藏

距離ChatGPT發(fā)布,已經(jīng)過(guò)去一年零一周。伴隨著ChatGPT的發(fā)布,成為了人工智能領(lǐng)域最耀眼的公司,尤其是在領(lǐng)域,它也是其他所有科技公司的追趕目標(biāo),當(dāng)然也包括。

本文引用地址:http://2s4d.com/article/202312/453917.htm

一直把「AI-first」作為公司戰(zhàn)略,2016年吸引了全球目光的AlphaGo便是最好的證明。事實(shí)上,才是在2017年提出Transformer模型、為今天這場(chǎng)游戲制定規(guī)則的先行者。毫不夸張地說(shuō),是谷歌掀起的第一波AI浪潮,改變了整個(gè)AI行業(yè)的發(fā)展。但現(xiàn)在,它亟需在領(lǐng)域證明自己。

Gemini:谷歌重新證明自己

12月6日,谷歌正式發(fā)布了Gemini。谷歌CEO桑達(dá)爾·皮查伊 (Sundar Pichai) 稱,這是谷歌迄今為止功能最強(qiáng)大、最通用的模型,也是谷歌新時(shí)代的開(kāi)始。

Gemini是Google Brain和DeepMind合并組建Google DeepMind之后的首個(gè)重要產(chǎn)品。而在Gemini發(fā)布之前,谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶當(dāng)中收獲的評(píng)價(jià)一直不高,相對(duì)于業(yè)界領(lǐng)軍的差距很大。

目前,谷歌計(jì)劃通過(guò)谷歌云將Gemini授權(quán)給客戶,供他們?cè)谧约旱膽?yīng)用程序中使用。據(jù)悉,在Gemini 1.0版本中包含三個(gè)不同尺寸,分別是Nano、Pro、Ultra。

640.gif

· Gemini Nano:有1.8B和3.25B兩個(gè)版本,分別針對(duì)低內(nèi)存和高內(nèi)存設(shè)備,用于特定任務(wù)和移動(dòng)設(shè)備,支持在本地部署;目標(biāo)是創(chuàng)建一個(gè)盡可能強(qiáng)大的Gemini版本,但同時(shí)不會(huì)占用手機(jī)的存儲(chǔ)空間或使處理器過(guò)熱。

· Gemini Pro:是性價(jià)比優(yōu)化的版本,具有良好延展性,在推理、多模態(tài)等方面也有較強(qiáng)能力,可以在幾周內(nèi)完成預(yù)訓(xùn)練,在多項(xiàng)測(cè)試中僅次于V,強(qiáng)于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;從發(fā)布會(huì)當(dāng)天開(kāi)始,谷歌聊天機(jī)器人Bard將使用Pro來(lái)實(shí)現(xiàn)高級(jí)推理、規(guī)劃、理解和其他功能。

· Gemini Ultra:是最大、功能最強(qiáng)大的類別,在對(duì)應(yīng)的TPU基礎(chǔ)設(shè)施中能夠展現(xiàn)出最高效率,在多項(xiàng)測(cè)試中Ultra版本性能超過(guò)V,被定位為GPT-4的競(jìng)爭(zhēng)對(duì)手;谷歌稱目前正在進(jìn)行信任和安全檢查,以及通過(guò)微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步完善模型,預(yù)計(jì)明年初,谷歌將推出使用Gemini Ultra的Bard Advanced,會(huì)是Bard發(fā)布以來(lái)的最大更新。

在性能測(cè)試上,Gemini Ultra在32個(gè)大語(yǔ)言模型基準(zhǔn)測(cè)試中的30個(gè)中超過(guò)了當(dāng)前最優(yōu)成績(jī),另外在MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)中,Gemini Ultra的得分為90%,成為首個(gè)超越人類專家的大模型。

MMLU通過(guò)結(jié)合數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等57個(gè)科目,來(lái)測(cè)試大模型對(duì)世界知識(shí)和解決問(wèn)題的能力。此前,GPT-4在該測(cè)試中的成績(jī)?yōu)?6.4%,而人類專家的成績(jī)?yōu)?9.8%。

從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,在被大型語(yǔ)言模型研究和開(kāi)發(fā)中廣泛使用的32項(xiàng)學(xué)術(shù)基準(zhǔn)中,Gemini Ultra的性能有30項(xiàng)都超過(guò)了目前最先進(jìn)的水平;圖像理解方面,在新的MMMU(專家AGI的大規(guī)模多學(xué)科多模式理解和推理)基準(zhǔn)測(cè)試中,Gemini Ultra的表現(xiàn)也更優(yōu),其得分率達(dá)59.4%,GPT-4V的得分率為56.8%。

在對(duì)比Gemini和GPT-4的基準(zhǔn)測(cè)試中,Gemini最明顯的優(yōu)勢(shì)來(lái)自于它理解視頻和音頻并與之交互的能力,這很大程度上是設(shè)計(jì)使然:多模態(tài)在最開(kāi)始就是Gemini計(jì)劃的一部分。谷歌沒(méi)有像構(gòu)建DALL·E(文生圖模型)和Whisper(語(yǔ)音識(shí)別模型)那樣單獨(dú)訓(xùn)練圖像和語(yǔ)音模型,而是從一開(kāi)始就建立為一個(gè)多感官模型。

640.jpeg

最大亮點(diǎn):原生多模態(tài)模型

目前,創(chuàng)建多模態(tài)模型的標(biāo)準(zhǔn)方法主要是通過(guò)分別針對(duì)不同模態(tài)訓(xùn)練單獨(dú)的組件,再將這些組件組合起來(lái)以模擬多模態(tài)功能的方法構(gòu)建的。但這樣操作的結(jié)果是,這些模型有時(shí)在執(zhí)行某些任務(wù)(如描述圖像)方面表現(xiàn)良好,但在處理需要更深層次概念理解和復(fù)雜推理的任務(wù)時(shí),它們的表現(xiàn)往往不盡人意。

640-2.gif

而谷歌將Gemini設(shè)計(jì)為原生多模態(tài),區(qū)別于其他既有的多模態(tài)模型,它從一開(kāi)始就針對(duì)不同模態(tài)進(jìn)行了預(yù)訓(xùn)練,再通過(guò)使用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào),進(jìn)一步提升了模型的有效性。這意味著Gemini一開(kāi)始就能無(wú)縫理解和推理不同類型的信息,包括文本、代碼、音頻、圖像和視頻,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型。

這種原生的多模態(tài)訓(xùn)練方法使得Gemini在處理多種類型的數(shù)據(jù)和復(fù)雜任務(wù)時(shí)更為高效和精準(zhǔn),從而在多模態(tài)人工智能領(lǐng)域樹(shù)立了新的標(biāo)準(zhǔn)。原生多模態(tài)能力意味著模型能夠更自然、高效地處理和融合多種類型的數(shù)據(jù),這在實(shí)現(xiàn)更復(fù)雜的AI應(yīng)用方面具有重要意義。

人類在理解世界時(shí)自然地融合了視覺(jué)、聽(tīng)覺(jué)和語(yǔ)言等多種感官信息。一個(gè)具有本地多模態(tài)能力的AI模型在處理信息時(shí)也采用了類似的綜合方式,這更接近于人類的理解和認(rèn)知方式。

想要實(shí)現(xiàn)AGI(通用人工智能),就需要AI做到像人類一樣從容地解決不同領(lǐng)域、不同模式的復(fù)雜任務(wù),在這個(gè)過(guò)程中,除了基本的計(jì)算、推理等基礎(chǔ)能力,相對(duì)應(yīng)的文字、圖像、視頻等多模態(tài)能力也要跟上。

· AGI-0:基本的人工智能,能夠在特定的領(lǐng)域和任務(wù)上表現(xiàn)出智能,如圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等,但不能跨領(lǐng)域和跨模態(tài)地進(jìn)行學(xué)習(xí)和推理,也不能與人類和其他AI進(jìn)行有效和自然的溝通和協(xié)作,也不能感知和表達(dá)情感和價(jià)值。

· AGI-1:初級(jí)的通用人工智能,能夠在多個(gè)領(lǐng)域和任務(wù)上表現(xiàn)出智能,如問(wèn)答、摘要、翻譯、對(duì)話等,能夠跨領(lǐng)域和跨模態(tài)地進(jìn)行學(xué)習(xí)和推理,可以與人類和其他AI進(jìn)行基本的溝通和協(xié)作,能夠感知和表達(dá)簡(jiǎn)單的情感和價(jià)值。

Gemini的演示視頻,充分展現(xiàn)了它對(duì)各個(gè)模態(tài)交互的深刻理解,能看、能說(shuō)、能推理、能夠感知和表達(dá)簡(jiǎn)單的情感和價(jià)值,也讓我們看到了AGI-1的潛在可能性。

經(jīng)過(guò)訓(xùn)練,Gemini可以同時(shí)識(shí)別和理解文本、圖像、音頻等,因此它能更好地理解微妙的信息,并能回答涉及復(fù)雜主題的問(wèn)題,比如進(jìn)行數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理。

而在編碼方面,Gemini能夠理解、解釋和生成世界上最流行的編程語(yǔ)言(如Python、Java、C++和Go)的高質(zhì)量代碼。兩年前,谷歌曾推出AI代碼生成平臺(tái)AlphaCode,現(xiàn)在在Gemini的助力下,該平臺(tái)迭代到AlphaCode 2,性能也得到大幅提升,可以解決之前幾乎兩倍數(shù)量的問(wèn)題。 

Gemini的訓(xùn)練是基于谷歌自己的張量處理單元(TPUs)v4和v5e,比谷歌之前的模型運(yùn)行速度更快、成本更低。值得關(guān)注的是,隨著Gemini的問(wèn)世,谷歌還宣布了TPU系統(tǒng)的最強(qiáng)升級(jí)Cloud TPU v5p,專為訓(xùn)練尖端AI模型而設(shè)計(jì);在訓(xùn)練優(yōu)化方面,Gemini還使用了Jax和Pathways編程模型,為復(fù)雜的數(shù)學(xué)運(yùn)算(如在機(jī)器學(xué)習(xí)中常見(jiàn)的運(yùn)算)提供了優(yōu)化的支持,增加了對(duì)模型并行性和數(shù)據(jù)并行性的利用,并對(duì)網(wǎng)絡(luò)延遲和帶寬進(jìn)行了優(yōu)化。

640-2.jpeg

通過(guò)使用這些工具,Gemini模型的開(kāi)發(fā)者可以使用單個(gè)Python進(jìn)程來(lái)協(xié)調(diào)整個(gè)訓(xùn)練過(guò)程,這樣可以簡(jiǎn)化開(kāi)發(fā)和訓(xùn)練工作流,同時(shí)利用Jax和Pathways的高效性能。

GPT-4的“雙子”星?

在過(guò)去的一年里,大模型的聊天機(jī)器人單月訪問(wèn)量已經(jīng)增長(zhǎng)到超過(guò)20億:ChatGPT的月用戶數(shù)從5月開(kāi)始有所下降,10月出現(xiàn)回升重新達(dá)到17億,對(duì)比谷歌Bard的用戶數(shù)僅為2.6億;Bard雖然排名第二,但和幾個(gè)競(jìng)品一起歸為“其他”更為合適。

640.png

隨著推出了ChatGPT,尤其是在必應(yīng)搜索中整合了GPT技術(shù),并首次在應(yīng)用程序下載量上超越了谷歌后,人們開(kāi)始思考谷歌是否在已人工智能領(lǐng)域落后于競(jìng)爭(zhēng)對(duì)手。此次谷歌發(fā)布Gemini早已被寄予了打破ChatGPT統(tǒng)治的厚望,那么Gemini能否代表著谷歌已經(jīng)迎頭趕上了呢?或者說(shuō),如今的谷歌能否重新站在人工智能行業(yè)的最高點(diǎn)呢?

通過(guò)ChatGPT獲得了大量訓(xùn)練數(shù)據(jù)反饋,短期內(nèi)OpenAI仍占有先機(jī),但長(zhǎng)期來(lái)看谷歌也依然有著自己的優(yōu)勢(shì) —— 具備的海量用戶和產(chǎn)品生態(tài)將會(huì)成為強(qiáng)大勢(shì)能。相比OpenAI,谷歌積累了海量的PC和手機(jī)端用戶,擁有海量實(shí)時(shí)數(shù)據(jù)(而OpenAI的數(shù)據(jù)依賴互聯(lián)網(wǎng),包括谷歌),并通過(guò)在用戶手機(jī)集成GPT提供如地鐵導(dǎo)航方面而擁有大量用戶信息。

雖然谷歌此次發(fā)布的Gemini雖然在很多性能上超越了GPT-4,但是它與OpenAI仍存在時(shí)間差,GPT-4發(fā)布已經(jīng)半年多,新一代模型應(yīng)該也在開(kāi)發(fā)過(guò)程中。所以對(duì)谷歌而言,與GPT-4進(jìn)行各種基準(zhǔn)測(cè)試的比較,只是展現(xiàn)其現(xiàn)階段能力的一方面,能否依靠自身積累以及強(qiáng)大的資源,縮短與OpenAI的時(shí)間差才是關(guān)鍵。

據(jù)CNBC報(bào)道,在Gemini正式發(fā)布前曾多次推遲發(fā)布日期,內(nèi)部對(duì)Gemini的提前發(fā)布意見(jiàn)不一,如今因?yàn)檫^(guò)大的市場(chǎng)壓力突然決定發(fā)布。未來(lái)還需要解決在非英語(yǔ)查詢等任務(wù)上的困難,盈利策略也還沒(méi)有確定,商業(yè)化路線不清晰。即使Gemini宣傳效果驚人,但作為谷歌在大模型時(shí)代構(gòu)建的全新基礎(chǔ)設(shè)施,比起測(cè)試數(shù)據(jù),實(shí)際應(yīng)用效果有待驗(yàn)證:能否滿足日常用戶以及企業(yè)客戶,才是檢驗(yàn)Gemini能力的真正標(biāo)準(zhǔn)。目前谷歌已經(jīng)開(kāi)始在搜索中試驗(yàn)Gemini,它使用戶的搜索生成體驗(yàn)變得更快(目前只有英語(yǔ)版本,其他語(yǔ)言版本將在未來(lái)陸續(xù)推出),延遲減少了40%,同時(shí)在質(zhì)量方面也有所提升。

Gemini的發(fā)布無(wú)疑是AI界又一個(gè)里程碑,這意味著AI大模型浪潮進(jìn)入到一個(gè)全新階段。比起大語(yǔ)言模型,多模態(tài)模型的運(yùn)作模式,才是人類最自然的和世界交互的方式:用眼睛看到東西,用耳朵聽(tīng)到聲音,再把這個(gè)東西的語(yǔ)義用聲音/文字輸出,再做出決策。

值得注意的是,視頻內(nèi)容已經(jīng)是信息時(shí)代的主流,據(jù)思科的年度互聯(lián)網(wǎng)報(bào)告顯示,視頻已經(jīng)占據(jù)互聯(lián)網(wǎng)超過(guò)80%的流量。Gemini只是掀起了多模態(tài)領(lǐng)域的一角,比起大語(yǔ)言模型,多模態(tài)模型增加了音頻、視頻、圖片這些數(shù)據(jù),而且這些數(shù)據(jù)的訓(xùn)練還遠(yuǎn)未到頭,意味著大模型的天花板上限還很高。如果AI領(lǐng)域的尺度定律(Scaling law)一直奏效,隨著訓(xùn)練規(guī)模不斷擴(kuò)大,我們還有許多可以期待的能力涌現(xiàn)。

Gemini的發(fā)布,必然會(huì)對(duì)其他AI大模型的迭代升級(jí)帶來(lái)新的催化。對(duì)產(chǎn)業(yè)而言,多模態(tài)料將帶動(dòng)算力需求的提升,同時(shí)為后續(xù)GPT-5等模型的發(fā)布將帶來(lái)更多催化。除了在一樣閉源路線上的谷歌,還能有誰(shuí)可以超越OpenAI?走不同開(kāi)源路線Meta旗下的Llama可能也有機(jī)會(huì)。

Meta對(duì)AI的投資主要集中在三個(gè)方面。一是基礎(chǔ)設(shè)施:Meta耗費(fèi)巨資,在全球范圍內(nèi)建立昂貴的數(shù)據(jù)中心;二是開(kāi)源大模型Llama 2:作為AI社區(qū)中最強(qiáng)大的開(kāi)源大模型,Llama 2包括7B、13B、70B三個(gè)版本;三是Meta AI:作為一款打通Meta旗下各平臺(tái)的AI助手,Meta AI可支持一對(duì)一、群聊,上線文生圖功能,甚至可用于AR眼鏡。

640-3.jpeg

7月,Meta發(fā)布Llama 2開(kāi)源大模型,以“開(kāi)源”“開(kāi)放”的名義發(fā)起反擊;12月,Meta又高調(diào)升級(jí)Meta AI助手,為Facebook、Instagram等平臺(tái)注入AI動(dòng)力。面對(duì)激烈的競(jìng)爭(zhēng),Meta寄希望于升級(jí)已有平臺(tái),將Meta AI打造成全球應(yīng)用最廣泛的AI助手。

強(qiáng)大的平臺(tái),一方面為Meta的大模型訓(xùn)練提供了豐富的語(yǔ)料,另一方面也為Meta AI的普及準(zhǔn)備了大量的用戶。除此之外,AI的核心專利方面,Meta可以、谷歌并駕齊驅(qū),廣泛應(yīng)用的深度學(xué)習(xí)框架PyTorch便誕生于Meta團(tuán)隊(duì)。



關(guān)鍵詞: 大模型 GPT-4 OpenAI 谷歌 微軟

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉