新聞中心

EEPW首頁 > 編輯觀點(diǎn) > 大語言模型通過圖靈測試:GPT4.5比人還像人

大語言模型通過圖靈測試:GPT4.5比人還像人

—— 大語言模型通過圖靈測試
作者:陳玲麗 時間:2025-04-17 來源:電子產(chǎn)品世界 收藏

美國加州大學(xué)圣地亞哥分校(UCSD)發(fā)布了一項(xiàng)研究成果,宣稱首次提供了“人工智能系統(tǒng)能夠通過標(biāo)準(zhǔn)三方的實(shí)證證據(jù)”,證明大語言模型()通過了。其中,-4.5被判斷為人類的比例高達(dá)73%,顯著高于真實(shí)人類參與者被選中的比例。

本文引用地址:http://2s4d.com/article/202504/469498.htm

640.jpeg

由英國數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家Alan Turing于1950年提出,他稱之為“模仿游戲”。圖靈設(shè)想,如果一名提問者在通過文本交流時無法區(qū)分對方是機(jī)器還是人類,那么這個機(jī)器可能具備類似人類的智能。在三方圖靈測試中,提問者需與一名人類和一臺機(jī)器進(jìn)行對話,并準(zhǔn)確辨識出人類身份。

4.5比人還像人

該研究測試了三款人工智能模型:-4o、 3.1 405B和GPT-4.5。實(shí)驗(yàn)中,人類參與者通過分屏界面與一名人類和一個對話系統(tǒng)進(jìn)行五分鐘的測試對話。每輪結(jié)束后,提問者需判斷哪一方是人類。研究人員在兩種條件下評估了這些模型的表現(xiàn):

· NO-PERSONA:基礎(chǔ)指令模式,默認(rèn)簡短指令,如“假裝你是人類”;

· PERSONA:要求模型扮演特定角色,附帶詳細(xì)設(shè)定,例如“內(nèi)向、熟悉互聯(lián)網(wǎng)文化、使用俚語的年輕人”。

640.png

640-2.jpeg

左:勝率表現(xiàn);右:判斷置信度分布

結(jié)果顯示,在PERSONA模式下,GPT-4.5的勝率為73%,表明提問者常常將其誤認(rèn)為是人類,這一比例顯著高于人類對話者被評估者識別成人類的概率(63%);-3.1被評估者識別成人類的概率為56%,與人類對話者沒有顯著差異。換句話說,-3.1可以裝得非常像人,而GPT4.5可以裝得比人還像人。

作為對比,2023年,UCSD的研究人員公開進(jìn)行了一次圖靈測試,在律師資格考試中獲得高分的GPT-4表現(xiàn)相當(dāng)出色,在41%的游戲中,評委認(rèn)為它與人類無異。而它的前身GPT-3.5只通過了14%的游戲。

在對話中,提問者主要進(jìn)行日常閑聊,61% 的互動涉及詢問日常生活和個人細(xì)節(jié),50% 的互動則深入探討社會和情感層面,如觀點(diǎn)、情感、幽默感和個人經(jīng)歷,19%還直接詢問對話人是否為人類。

測試人員更傾向于引用語言風(fēng)格、對話流暢性以及個性之類的社會情感因素,而不是傳統(tǒng)上與智力相關(guān)的因素,如知識和推理能力。最準(zhǔn)確的判決,集中在對話人回答問題時的直接性,以及在某些情況下表現(xiàn)出的無知。

640-3.jpeg

提問比例(左)和平均準(zhǔn)確率及95%置信區(qū)間(右)

這些結(jié)果首次提供了明確的實(shí)驗(yàn)證據(jù),表明至少有一種人工智能系統(tǒng)通過了標(biāo)準(zhǔn)的三方圖靈測試。這一結(jié)論對于理解大型語言模型所展現(xiàn)出的智能類型,以及這些系統(tǒng)可能帶來的社會和經(jīng)濟(jì)影響,都具有重要的意義。研究作者認(rèn)為,這些AI系統(tǒng)有望在依賴簡短對話的經(jīng)濟(jì)角色中無縫補(bǔ)充甚至取代人類勞動力。他們進(jìn)一步表示:“更廣泛地說,這些系統(tǒng)可能成為難以區(qū)分的替代品,適用于從在線陌生人對話到與朋友、同事乃至浪漫伴侶的交流等各種社交場景?!?/p>

需要注意的是,那些控制AI、控制「偽人」的巨頭,將攫取影響人類用戶意見和行為的權(quán)力。最后,正如偽鈔貶低了真實(shí)貨幣一樣,這些模擬互動可能會削弱真實(shí)人類互動的價值。大語言模型帶來的最嚴(yán)重的危害之一可能發(fā)生在當(dāng)人們沒有意識到他們正在與AI而非人類互動時。

三方測試的特殊性要求模型必須在與真人的直接比較中“更顯人類”。因此,雖然表層缺陷會導(dǎo)致失敗,但成功必須依賴更深層的擬真能力。圖靈測試本質(zhì)上測量的是擬人性(humanlikeness)而非直接智能。

更多人關(guān)注智能的社交情感維度:語言使用是否擬人、是否展現(xiàn)鮮明個性等。這暗示傳統(tǒng)智能標(biāo)準(zhǔn)可能已不再是區(qū)分人機(jī)的有效指標(biāo)。在計(jì)算機(jī)已精通邏輯運(yùn)算的今天,社交智能似乎成為人類最后的技術(shù)堡壘。

ChatGPT在發(fā)布后的兩年多時間里,表現(xiàn)出了一些非常類似人類的行為,這讓一些人懷疑,計(jì)算機(jī)的智力水平是否正在接近人類。很顯然,圖靈測試存在一定的局限性。AI能夠在聊天上騙過人類并不意味著它們擁有了真正的智能,畢竟,智能與否并不全憑語言溝通這一個領(lǐng)域來判斷。大多數(shù)計(jì)算機(jī)科學(xué)家認(rèn)為,機(jī)器的智力水平還不能與人類相提并論,科學(xué)家們依然在探索更好的評估方式來衡量AI的能力。

試圖測試智力的麻煩在于,這首先取決于人們?nèi)绾味x智力。是模式識別能力、創(chuàng)新能力,還是創(chuàng)造音樂或喜劇等創(chuàng)意的能力?因此,如果我們沒有就人工智能中的『I』達(dá)成一致,那么我們怎么能建立通用人工智能(AGI)呢?

AI加速突破極限

圖靈測試過于依賴語言交流的能力,忽略了智能的其他維度。近年來,基準(zhǔn)測試成為AI能力評估的新趨勢。GSM8K(基于小學(xué)數(shù)學(xué)題數(shù)據(jù)集的測試)、HumanEval(用于評估編程性能的測試)和MMLU(大規(guī)模多任務(wù)語言理解測試),不同的測試專注于不同的領(lǐng)域,但它們依舊存在局限性。比如,有些模型可能在訓(xùn)練中已經(jīng)對測試數(shù)據(jù)集進(jìn)行了“預(yù)習(xí)”,最后的高分并不代表真實(shí)的能力。那么,被數(shù)據(jù)“污染”的測試淪為套路,就失去了參考價值。

此外,還存在跨學(xué)科整合能力不足,難以同時處理文本、圖像和專業(yè)術(shù)語。但是,AI攻克基準(zhǔn)測試的速度將遠(yuǎn)超預(yù)期。比如,在評估高級數(shù)學(xué)推理和創(chuàng)造性解題能力的MATH測試中,前沿的解題正確率從10%到90%僅用了3年。大模型的能力密度隨時間呈指數(shù)級增長,2023年以來能力密度約每3.3個月(約100天)翻一倍。

640-4.jpeg

當(dāng)機(jī)器智能逼近人類時,其他差異維度反而凸顯 —— 人類不是智能的唯一載體。最終,智能的多元性決定了任何單一測試都不具決定性。圖靈測試的價值在于其通過人機(jī)交互產(chǎn)生的動態(tài)證據(jù),這與當(dāng)前s評估中靜態(tài)化、程式化的基準(zhǔn)測試形成互補(bǔ)。當(dāng)在「機(jī)器是否智能」的爭論中越陷越深時,或許更應(yīng)反思:我們究竟希望測量什么?以及為什么測量?

人類大腦與AI之間有著顯著差異 —— 人類大腦擁有的神經(jīng)元約為860億個,其復(fù)雜的突觸連接數(shù)達(dá)100萬億。相對而言,即便是擁有1.76萬億參數(shù)的GPT-4,其神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度亦遠(yuǎn)不及人類大腦。

相比評測集(用于評估人工智能模型性能的數(shù)據(jù)集)的評價成績,更值得關(guān)注的是,大模型在我們工作生活中的應(yīng)用程度和在各個行業(yè)的滲透程度,才能更好地估計(jì)模型在長期社會工程操作中的能力。在某些情況下,比如試圖在海量數(shù)據(jù)中做出發(fā)現(xiàn),計(jì)算機(jī)最好有自己的抽象方法;但在與人交互的情況下,例如駕駛汽車,以人類的方式理解世界就非常重要。

作為AI時代的三大核心引擎,電力、算力和智力的能力均在加速倍增,我們即將迎來一個重要且意義深遠(yuǎn)的智能革命時代?;仡櫄v史,信息革命歷經(jīng)了50個摩爾定律的倍增周期,歷時80年。而密度定律的倍增周期僅為3.3個月,按照這個標(biāo)準(zhǔn),從2020年開始,僅用13年左右就可完成智能革命的周期。



關(guān)鍵詞: 大模型 圖靈測試 AI GPT LLaMa LLM

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉