谷歌發(fā)布旗艦推理模型：?jiǎn)未慰商幚戆偃f(wàn)token

作者：時(shí)間：2025-03-26 來(lái)源：網(wǎng)易科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

3月26日消息，美國(guó)時(shí)間周二，谷歌發(fā)布Gemini 2.5系列人工智能推理模型。該系列模型在回答問(wèn)題前會(huì)“思考”片刻。

本文引用地址：http://2s4d.com/article/202503/468624.htm

作為這一系列模型的首發(fā)產(chǎn)品，Gemini 2.5 Pro Experimental已經(jīng)率先亮相。這款多模態(tài)推理人工智能模型被谷歌稱為“目前最智能的模型”。這一模型將于周二登陸谷歌開(kāi)發(fā)者平臺(tái)Google AI Studio，同時(shí)向每月支付20美元訂閱“Gemini Advanced”的用戶開(kāi)放。

谷歌表示，未來(lái)所有新推出的人工智能模型都將集成推理能力。

自從OpenAI于2024年9月份發(fā)布首個(gè)人工智能推理模型o1以來(lái)，科技行業(yè)紛紛爭(zhēng)相開(kāi)發(fā)推理模型，想要匹配或超越o1的性能。目前，Anthropic、DeepSeek（深度求索）、谷歌和xAI等公司均已推出各自的人工智能推理模型，這些模型利用額外算力和時(shí)間，在輸出答案之前先進(jìn)行事實(shí)核查和邏輯推演。

推理技術(shù)使得人工智能模型在數(shù)學(xué)與編程任務(wù)中實(shí)現(xiàn)突破。許多科技界人士認(rèn)為，推理模型將成為智能體的重要組成部分，使得這些人工智能系統(tǒng)可以無(wú)需人工干預(yù)自動(dòng)完成任務(wù)，但成本也更高。

谷歌此前也曾嘗試開(kāi)發(fā)人工智能推理模型，去年12月份曾發(fā)布過(guò)具備“思考能力的Gemini，但Gemini 2.5系列模型則是谷歌挑戰(zhàn)OpenAI“o”系列模型迄今最重磅嘗試。

無(wú)標(biāo)題.jpg

谷歌聲稱，Gemini 2.5 Pro在多項(xiàng)基準(zhǔn)測(cè)試中都超越了前沿模型以及頂級(jí)競(jìng)爭(zhēng)對(duì)手的部分產(chǎn)品，在視覺(jué)化網(wǎng)頁(yè)應(yīng)用開(kāi)發(fā)和自動(dòng)化編程等領(lǐng)域的表現(xiàn)尤為突出。

谷歌稱，在名為Aider Polyglot的代碼編輯評(píng)估中，Gemini 2.5 Pro得分為68.6%，力壓OpenAI、Anthropic以及DeepSeek的部分頂尖模型。

但在軟件開(kāi)發(fā)能力測(cè)試SWE-bench Verified中，Gemini 2.5 Pro得分只有63.8%，雖然優(yōu)于OpenAI的o3-mini和DeepSeek R1，但表現(xiàn)仍不敵Anthropic的Claude 3.7 Sonnet，后者得分為70.3%。

在涵蓋數(shù)學(xué)、人文以及自然科學(xué)的綜合性測(cè)試“人類終極考試”（Humanity’s Last Exam）中，谷歌表示Gemini 2.5 Pro得分為18.8%，表現(xiàn)優(yōu)于大多數(shù)競(jìng)爭(zhēng)對(duì)手的旗艦級(jí)模型。

此外，谷歌表示Gemini 2.5 Pro支持高達(dá)100萬(wàn)token的超大上下文窗口，單次可以處理約75萬(wàn)英文單詞，遠(yuǎn)超《指環(huán)王》三部曲的總字?jǐn)?shù)。谷歌透露，未來(lái)Gemini 2.5 Pro將支持200萬(wàn)token的雙倍輸入長(zhǎng)度。

目前，谷歌尚未公布Gemini 2.5 Pro的API定價(jià)，但表示將在未來(lái)幾周內(nèi)公布。

新聞中心

谷歌發(fā)布旗艦推理模型：?jiǎn)未慰商幚戆偃f(wàn)token

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)