人工智能這一點(diǎn)很像人,恰恰證明它們不會(huì)像人思考
研究發(fā)現(xiàn)人工智能模型也有偏愛的數(shù)字 原因并不是它們會(huì)思考了
本文引用地址:http://2s4d.com/article/202405/459329.htm5月29日消息,人工智能模型總是讓人們感到驚訝,這不僅在于它們能做什么,還在于它們不能做什么,以及為什么會(huì)這樣。最近數(shù)據(jù)科學(xué)公司Gramener工程師們開展的研究新發(fā)現(xiàn),這些模型都存在一個(gè)有趣的行為,它們挑選隨機(jī)數(shù)字的行為很像人,這雖然看起來膚淺,但又能揭示這些系統(tǒng)的本質(zhì)。
首先你可能會(huì)問,這到底是什么意思呢?難道人不能隨機(jī)選出個(gè)數(shù)字嗎?怎樣判斷一個(gè)人是否成功隨機(jī)選擇了數(shù)字呢?這實(shí)際上是我們?nèi)祟惖囊粋€(gè)古老且廣為人知的局限:我們往往會(huì)過度思考并誤解隨機(jī)性的本質(zhì)。
例如,讓某人預(yù)測(cè)100次硬幣拋擲的結(jié)果,并與真實(shí)的100次硬幣拋擲結(jié)果相比較時(shí),人幾乎總能區(qū)分出哪個(gè)是預(yù)測(cè),哪個(gè)是實(shí)際結(jié)果。因?yàn)榕c人類的直覺相反,真實(shí)的硬幣拋擲結(jié)果看起來不那么隨機(jī)。例如,真實(shí)拋擲中經(jīng)常會(huì)出現(xiàn)連續(xù)六到七次正面或反面,而這是人類預(yù)測(cè)中幾乎不會(huì)考慮的情況。
同樣,當(dāng)要求某人在0到100之間選擇一個(gè)數(shù)字時(shí),人們幾乎從不選擇1或100,很少選擇5的倍數(shù)或重復(fù)數(shù)字如66和99。
這種可預(yù)測(cè)性在心理學(xué)中屢見不鮮。但當(dāng)人工智能做出相同選擇時(shí),情況就變得有些奇怪。
Gramener公司的一些工程師進(jìn)行了一個(gè)非正式但卻很有趣的實(shí)驗(yàn),他們讓幾個(gè)主流的大語言模型聊天機(jī)器人在0到100之間選擇一個(gè)隨機(jī)數(shù)字,結(jié)果卻并非隨機(jī)。
測(cè)試的三個(gè)模型都顯示出對(duì)某個(gè)數(shù)字的偏好,尤其在將隨機(jī)性調(diào)整到最高時(shí),這一數(shù)字出現(xiàn)的頻率最高。
例如,OpenAI的GPT-3.5 Turbo偏愛數(shù)字47,而在此之前它偏愛42——這個(gè)數(shù)字因道格拉斯·亞當(dāng)斯經(jīng)典科幻小說《銀河系漫游指南》中超級(jí)計(jì)算機(jī)而聞名,書中將其定義為生命、宇宙以及一切的答案。
Anthropic的大語言模型Claude 3 Haiku也喜歡42,谷歌的Gemini則更偏愛72。
即便是在設(shè)置為高隨機(jī)性的情況下,所有三個(gè)模型在數(shù)字選擇上都顯示出類似人類的偏見。所有模型都避開了較低和較高的數(shù)字;例如,Claude從未選擇超過87或低于27的數(shù)字,而這些數(shù)字本身也是異常值。避免選擇雙位數(shù)非常謹(jǐn)慎,如33、55或66都未出現(xiàn),但77(以7結(jié)尾的數(shù)字)確實(shí)出現(xiàn)過。Gemini幾乎沒有選擇任何整十?dāng)?shù),盡管在設(shè)定為最高隨機(jī)性時(shí),它曾突破常規(guī),選擇了數(shù)字0。
為什么會(huì)這樣呢?這些人工智能并非人類!為什么它們會(huì)在乎哪些數(shù)字“看起來”隨機(jī)?難道它們已經(jīng)獲得了意識(shí),而這正是它們表現(xiàn)出來的方式嗎?
答案是,我們常常將人類的特質(zhì)錯(cuò)誤地歸因于這些模型。這些模型并不關(guān)心什么是隨機(jī)的,它們甚至不知道“隨機(jī)性”是什么。它們回答這類問題的方式和回答其他所有問題的方式一樣:通過查看訓(xùn)練數(shù)據(jù)并重復(fù)出現(xiàn)頻率最高的答案。因?yàn)檫@些模型并沒有實(shí)際的推理能力,也不懂?dāng)?shù)字,只能像鸚鵡學(xué)舌一樣隨機(jī)回答問題。
這是關(guān)于大語言模型行為方式及其表現(xiàn)出的“人性”的生動(dòng)例證。在每次與這些系統(tǒng)的互動(dòng)中,我們必須認(rèn)識(shí)到,它們被訓(xùn)練以模仿人類的行為方式,哪怕這并非初衷。正因如此,避免或預(yù)防擬人化變得極其困難。
所謂這些模型“認(rèn)為自己是人”的說法有點(diǎn)誤導(dǎo)性。實(shí)際上這些模型根本不會(huì)思考。但任何時(shí)候它們的響應(yīng)都是在模仿人,根本不需要任何真正的理解或思考。不管用戶是在詢問食譜、投資建議還是一個(gè)隨機(jī)數(shù)字,其處理過程都是一樣的。因?yàn)檫@些答案直接源自人類內(nèi)容并進(jìn)行了重新組合,所以感覺很像是人類的反饋。
評(píng)論