新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > OpenAI重磅推出o3/o4-mini新模型!能"看圖思考"

OpenAI重磅推出o3/o4-mini新模型!能"看圖思考"

作者: 時間:2025-04-17 來源:網(wǎng)易科技 收藏

4月17日消息,北京時間今日凌晨,發(fā)布了兩款突破性AI模型,它們能夠通過圖像進行推理,并可獨立使用工具,專家稱它們?yōu)槿斯ぶ悄苣芰Φ囊淮物w躍。

本文引用地址:http://2s4d.com/article/202504/469484.htm

這兩款分別被稱為o3與o4-mini,它們都是 “o系列” 推理模型的最新成員,并被稱為迄今為止最智能、最強大的模型。這些系統(tǒng)能將圖像直接整合到推理過程中,并在單一任務流程中執(zhí)行網(wǎng)頁搜索、代碼運行、文件分析乃至圖像生成等操作。

總裁格雷格·布羅克曼(Greg Brockman)在發(fā)布會上表示:“有些模型會讓人覺得像是邁入未來的質(zhì)變,GPT-4就是其中之一。今天也將成為這樣的歷史時刻。這是首批讓頂尖科學家都承認能產(chǎn)出確實優(yōu)秀、實用新穎創(chuàng)意的模型?!?/p>

OpenAI通過“圖像思維”幫助解決視覺問題

這些最顯著的特征是“圖像思維”能力。它們不僅是識別圖像,還能在問題解決流程中操控并推理。

OpenAI在聲明中強調(diào):“它們不只是看圖——而是用圖像進行思考。這解鎖了一類全新的問題求解方式,將視覺與文本推理相融合?!?/p>

在發(fā)布會演示環(huán)節(jié),研究人員展示了o3如何分析一份來自十年前實習項目的物理海報:它能獨立解析其中復雜的圖示,甚至識別出海報本身未呈現(xiàn)的最終結(jié)論。

OpenAI多模態(tài)推理研究員布蘭登·麥肯錫(Brandon McKenzie)在演示中說道:“它相當于在幾秒內(nèi)為我閱讀了至少10篇不同的論文?!彼烙?,這項任務如果由他本人完成,“光是重新熟悉當年的項目背景就要好幾天,然后可能還得幾天才能完成文獻查閱?!?/p>

人工智能在推理過程中操控圖像的能力,比如放大細節(jié)、旋轉(zhuǎn)圖像或裁剪冗余元素等,被行業(yè)分析師認為可能徹底改變從科研到教育等多個領域。

沃頓商學院研究人工智能、創(chuàng)新與創(chuàng)業(yè)公司的伊森·莫里克教授(Ethan Mollick)在社交平臺上發(fā)文稱:

我獲得了o3的早期使用權限,這款模型令人印象深刻,能力非常強大。以下為一些有趣的示例:

1?? 解構了我課堂上使用的商業(yè)案例

2?? 生成純代碼構建的SVG矢量圖

3?? 創(chuàng)作雙螺旋結(jié)構的約束性短篇故事

4?? 創(chuàng)作硬科幻太空戰(zhàn)斗場景

無標題.jpg

超越AI模型:o3與o4-mini如何通過先進工具集成作為完整AI系統(tǒng)運行

OpenAI的高管強調(diào),這次發(fā)布的不僅僅是推理模型的升級版本,而是完整的人工智能系統(tǒng),它們能夠在解決問題時獨立調(diào)用并串聯(lián)多個工具。

該公司在發(fā)布聲明中表示:“我們通過強化學習訓練模型使用工具——不僅讓它們學會如何使用工具,更讓它們學會何時使用工具?!?/p>

布羅克曼特別強調(diào)了這些模型在工具調(diào)用方面的強大能力:“它們實際上是在思維鏈中調(diào)用這些工具,以嘗試解決困難問題。例如,我們曾看到o3為了解并執(zhí)行一個極其困難的任務,連續(xù)調(diào)用了大約600次工具?!?/p>

這種能力使模型能夠執(zhí)行復雜的、多步驟的工作流任務,而無需用戶持續(xù)介入。比如,當被問到“加州未來的能源使用趨勢”時,人工智能系統(tǒng)可以搜索公用事業(yè)數(shù)據(jù)、編寫Python代碼進行分析、生成可視化圖表,并撰寫出一份全面的報告——所有步驟都作為一個流暢、連貫的過程完成。

OpenAI超越競爭對手,在關鍵AI基準測試中表現(xiàn)優(yōu)異

OpenAI宣稱,o3在多個關鍵人工智能能力基準測試中確立全新行業(yè)標桿,包括Codeforces(編程競賽平臺)、SWE-bench(軟件工程基準)和MMMU(多模態(tài)理解評估)。

據(jù)外部專家評估,在復雜現(xiàn)實任務中,o3的重大錯誤率較前代模型降低20%。

而輕量級模型o4-mini在保持強大推理能力的同時,更注重速度與成本效益。配備Python解釋器時,其在2025年AIME數(shù)學競賽中取得99.5%的驚人準確率。

OpenAI研究負責人馬克·陳(Mark Chen)在發(fā)布會上說道:“我真的相信,憑借這套模型組合,o3和o4-mini,我們將會看到更多的突破?!?/p>

OpenAI發(fā)布新模型的時機也非常關鍵,該公司在兩天前剛剛推出了GPT-4.1模型,該模型在編程任務中表現(xiàn)優(yōu)異。接連不斷的發(fā)布表明,OpenAI在競爭激烈的人工智能領域正在加速推進,并面臨來自谷歌Gemini、Anthropic Claude以及埃隆·馬斯克(Elon Musk)旗下xAI等日益激烈的競爭壓力。

上個月,OpenAI完成了歷史上最大規(guī)模的私募融資,籌集了400億美元資金,估值達3000億美元。另外,該公司還在考慮構建自己的社交網(wǎng)絡,可能對標馬斯克的X,并確保擁有獨立的訓練數(shù)據(jù)源。

OpenAI新模型如何通過代碼導航能力重塑軟件工程領域

新模型在軟件工程領域的表現(xiàn)特別出色。布羅克曼在發(fā)布會上提到,o3在“檢索OpenAI內(nèi)部代碼庫時的表現(xiàn)比我還要出色,這真的很有用?!?/p>

作為此次發(fā)布的一部分,OpenAI還推出了Codex CLI,這是一款輕量級的編程智能體,可以直接在用戶的終端運行。這個開源工具讓開發(fā)者能夠利用這些模型的推理能力來完成編程任務,支持截圖和草圖輸入。

OpenAI在公告中寫道:“我們還分享了一個新的實驗:Codex CLI,一個可以從終端運行的輕量級編程智能體。通過將截圖或簡略草圖傳遞給模型,并結(jié)合對本地代碼的訪問,用戶可以從命令行獲得多模態(tài)推理的好處。”

為了鼓勵采用,OpenAI啟動了一項100萬美元的扶持計劃,支持使用Codex CLI和OpenAI的模型,每個項目將獲得2.5萬美元的API信用額度。

無標題.jpg

OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)發(fā)帖稱:“由于o3和o4-mini在編程領域表現(xiàn)優(yōu)異,OpenAI還推出了一個新產(chǎn)品——Codex CLI,旨在簡化它們的使用。這是一款運行在你計算機上的編程智能體,完全開源,并已于今日發(fā)布;我們預計它將迅速改進?!?/p>

OpenAI強化安全協(xié)議內(nèi)幕:如何防范AI濫用

OpenAI表示,已對新模型進行了廣泛的安全測試,特別是針對它們拒絕有害請求的能力。該公司的安全措施包括完全重建安全訓練數(shù)據(jù),并開發(fā)了系統(tǒng)級的緩解措施來標記危險的提示。

OpenAI在公告中稱:“我們對這兩個模型進行了迄今為止最嚴格的安全測試。o3和o4-mini在生物學、網(wǎng)絡安全和AI自我改進能力等領域的潛在風險,仍然低于OpenAI的高風險閾值?!?/p>

在發(fā)布會上,OpenAI兩位研究人員展示了詳細的基準測試結(jié)果,并指出新模型在訓練計算量上超過了以往版本的10倍,才能實現(xiàn)這些強大的能力。

獲取o3和o4-mini的時機與方式:部署時間表與商業(yè)策略

OpenAI的新模型目前已立即向ChatGPT Plus、Pro和Team用戶開放,Enterprise和Education客戶將在下周獲得訪問權限。免費用戶可以通過在提交查詢前選擇“Think”來體驗o4-mini。

開發(fā)者可以通過OpenAI的Chat Completions API和Responses API試用這兩個模型,盡管部分組織需要驗證才能訪問它們。

此次發(fā)布對OpenAI來說是一個重要的商業(yè)機會,因為這些模型似乎比前代更強大且更具成本效益。該公司舉例稱,在2025年AIME數(shù)學競賽中,o3的性價比嚴格優(yōu)于o1。同樣,o4-mini在成本表現(xiàn)上也優(yōu)于o3-mini。

AI的未來:OpenAI架起推理與對話的橋梁打造下一代系統(tǒng)

業(yè)內(nèi)分析人士認為,這些發(fā)布是人工智能能力融合的更廣泛趨勢的一部分,模型越來越多地將專業(yè)推理與自然對話能力和工具使用結(jié)合起來。

OpenAI在發(fā)布會中指出:“最新發(fā)布反映了我們的模型發(fā)展方向:我們正在將o系列的專門推理能力與GPT系列更多的自然對話能力和工具使用結(jié)合起來。”

不過,莫里克教授發(fā)帖稱,o3是“非常強大的模型,但仍有明顯短板”。

隨著人工智能領域的競爭日益加劇,谷歌、Anthropic等公司推出越來越強大的模型,OpenAI在推理能力和實際工具使用上的雙重關注表明,其戰(zhàn)略是旨在通過提供智能和實用性來保持領先地位。

通過o3和o4-mini,OpenAI已經(jīng)跨越了一個門檻——機器開始像人類一樣感知圖像,將視覺信息的處理作為思維過程的組成部分,而不僅僅是分析它們所看到的。這種從被動識別到主動視覺推理的轉(zhuǎn)變,可能比任何基準分數(shù)都更具意義,代表著人工智能終于開始通過“思考的眼睛”來看待世界。



評論


相關推薦

技術專區(qū)

關閉