谷歌發(fā)布旗艦推理模型:單次可處理百萬token
3月26日消息,美國時間周二,谷歌發(fā)布Gemini 2.5系列人工智能推理模型。該系列模型在回答問題前會“思考”片刻。
本文引用地址:http://2s4d.com/article/202503/468624.htm作為這一系列模型的首發(fā)產(chǎn)品,Gemini 2.5 Pro Experimental已經(jīng)率先亮相。這款多模態(tài)推理人工智能模型被谷歌稱為“目前最智能的模型”。這一模型將于周二登陸谷歌開發(fā)者平臺Google AI Studio,同時向每月支付20美元訂閱“Gemini Advanced”的用戶開放。
谷歌表示,未來所有新推出的人工智能模型都將集成推理能力。
自從OpenAI于2024年9月份發(fā)布首個人工智能推理模型o1以來,科技行業(yè)紛紛爭相開發(fā)推理模型,想要匹配或超越o1的性能。目前,Anthropic、DeepSeek(深度求索)、谷歌和xAI等公司均已推出各自的人工智能推理模型,這些模型利用額外算力和時間,在輸出答案之前先進(jìn)行事實核查和邏輯推演。
推理技術(shù)使得人工智能模型在數(shù)學(xué)與編程任務(wù)中實現(xiàn)突破。許多科技界人士認(rèn)為,推理模型將成為智能體的重要組成部分,使得這些人工智能系統(tǒng)可以無需人工干預(yù)自動完成任務(wù),但成本也更高。
谷歌此前也曾嘗試開發(fā)人工智能推理模型,去年12月份曾發(fā)布過具備“思考能力的Gemini,但Gemini 2.5系列模型則是谷歌挑戰(zhàn)OpenAI“o”系列模型迄今最重磅嘗試。
谷歌聲稱,Gemini 2.5 Pro在多項基準(zhǔn)測試中都超越了前沿模型以及頂級競爭對手的部分產(chǎn)品,在視覺化網(wǎng)頁應(yīng)用開發(fā)和自動化編程等領(lǐng)域的表現(xiàn)尤為突出。
谷歌稱,在名為Aider Polyglot的代碼編輯評估中,Gemini 2.5 Pro得分為68.6%,力壓OpenAI、Anthropic以及DeepSeek的部分頂尖模型。
但在軟件開發(fā)能力測試SWE-bench Verified中,Gemini 2.5 Pro得分只有63.8%,雖然優(yōu)于OpenAI的o3-mini和DeepSeek R1,但表現(xiàn)仍不敵Anthropic的Claude 3.7 Sonnet,后者得分為70.3%。
在涵蓋數(shù)學(xué)、人文以及自然科學(xué)的綜合性測試“人類終極考試”(Humanity’s Last Exam)中,谷歌表示Gemini 2.5 Pro得分為18.8%,表現(xiàn)優(yōu)于大多數(shù)競爭對手的旗艦級模型。
此外,谷歌表示Gemini 2.5 Pro支持高達(dá)100萬token的超大上下文窗口,單次可以處理約75萬英文單詞,遠(yuǎn)超《指環(huán)王》三部曲的總字?jǐn)?shù)。谷歌透露,未來Gemini 2.5 Pro將支持200萬token的雙倍輸入長度。
目前,谷歌尚未公布Gemini 2.5 Pro的API定價,但表示將在未來幾周內(nèi)公布。
評論