為什么GPT-4不開源？OpenAI聯(lián)合創(chuàng)始人：過去的做法是“錯(cuò)誤的”

作者：James Vincent 時(shí)間：2023-03-17 來源：學(xué)術(shù)頭條

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

OpenAI 發(fā)布了其自稱為“迄今為止最強(qiáng)大、對(duì)齊最好的模型”GPT-4，但人工智能社區(qū)的一部分人對(duì)‘缺乏公共信息’感到失望。他們的抱怨，凸顯了人工智能世界中關(guān)于安全問題的日益緊張的形勢(shì)。

昨天，OpenAI 發(fā)布了強(qiáng)大的 GPT-4，它是人們期待已久的下一代人工智能語言模型。該模型的強(qiáng)大能力仍在評(píng)估中，但隨著研究人員和專家對(duì)其相關(guān)材料的仔細(xì)研究，一部分人對(duì)一個(gè)明顯的事實(shí)表示失望：OpenAI 發(fā)布的 GPT-4，不是一個(gè)開放的人工智能模型（not an open AI model）。

本文引用地址：http://2s4d.com/article/202303/444569.htm

盡管 OpenAI 已經(jīng)分享了大量 GPT-4 的基準(zhǔn)和測(cè)試結(jié)果，以及一些有趣的演示，但基本上沒有提供用于訓(xùn)練該模型的數(shù)據(jù)、能源成本，或用于創(chuàng)建該模型的具體硬件或方法的信息。

人工智能社區(qū)的一部分人批評(píng)了這一決定，認(rèn)為它破壞了該公司作為一個(gè)研究機(jī)構(gòu)的創(chuàng)始精神，并使其他人更難以復(fù)制其工作。也許更重要的是，一些人說，這也使人們難以制定保障措施來應(yīng)對(duì)像 GPT-4 這樣的人工智能系統(tǒng)所帶來的威脅，而這些抱怨是在人工智能世界日益緊張和快速發(fā)展時(shí)顯現(xiàn)的。

“我認(rèn)為這一做法關(guān)閉了 'Open' AI 的大門：他們?cè)诮榻B GPT-4 的 98 頁論文中自豪地宣稱，沒有透露任何有關(guān)訓(xùn)練集的內(nèi)容，” Nomic AI 信息設(shè)計(jì)副總裁 Ben Schmidt 在推特上表示。

關(guān)于這一說法，Schmidt 指的是 GPT-4 技術(shù)報(bào)告中的一段內(nèi)容，如下：

鑒于像 GPT-4 這樣的大型模型的競(jìng)爭(zhēng)狀況和安全影響，本報(bào)告沒有包含關(guān)于架構(gòu)（包括模型大?。?、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法等方面的進(jìn)一步細(xì)節(jié)。

在接受采訪時(shí)，OpenAI 首席科學(xué)家、聯(lián)合創(chuàng)始人 Ilya Sutskever 對(duì)這一做法進(jìn)行了說明。他表示，OpenAI 不分享關(guān)于 GPT-4 的更多信息的原因是“不言而喻的”——害怕競(jìng)爭(zhēng)和對(duì)安全的擔(dān)憂。

“在競(jìng)爭(zhēng)格局方面--外面的競(jìng)爭(zhēng)很激烈，” Sutskever 說，“GPT-4 的開發(fā)并不容易。幾乎 OpenAI 的所有人在一起花了很長時(shí)間才做出了這個(gè)東西，而且（目前）有很多很多公司都想做同樣的事情?！?/span>

“安全方面，我想說，還沒有競(jìng)爭(zhēng)方面那么突出。但它將會(huì)改變，基本上是這樣的。這些模型非常強(qiáng)大，而且會(huì)變得越來越強(qiáng)大。在某種程度上，如果有人想的話，很容易用這些模型造成很大的傷害。隨著（模型）能力的增強(qiáng)，你不想透露它們是有道理的?！?/span>

OpenAI 于 2015 年成立，創(chuàng)始人包括 Sutskever、現(xiàn)任首席執(zhí)行官 Sam Altman、現(xiàn)已離開 OpenAI 的馬斯克。在一篇介紹性博客文章中，Sutskever 等人表示，該組織的目標(biāo)是 “為每個(gè)人而不是股東創(chuàng)造價(jià)值”，并將與該領(lǐng)域的其他人 “自由合作”。OpenAI 成立之初是一個(gè)非營利組織，但后來為了獲得數(shù)十億美元的投資（主要來自微軟）而變成了“利潤上限”。

當(dāng)被問及為什么 OpenAI 改變了分享其研究的方法時(shí)，Sutskever 簡(jiǎn)單地回答：“我們錯(cuò)了。坦率地說，我們錯(cuò)了。如果你像我們一樣相信，在某個(gè)時(shí)候，人工智能/通用人工智能將變得極其強(qiáng)大，令人難以置信，那么，開源就是沒有意義的。這是一個(gè)壞主意...... 可以預(yù)料的是，在幾年內(nèi)，每個(gè)人都會(huì)完全明白，開源人工智能是不明智的。”

然而，人工智能社區(qū)對(duì)此事的看法各不相同。值得注意的是，在 GPT-4 發(fā)布的幾周前，Meta 開發(fā)的另一個(gè)名為 LLaMA 的人工智能語言模型在網(wǎng)上遭泄露，引發(fā)了關(guān)于開源研究的威脅和好處的類似討論。不過，大多數(shù)人對(duì) GPT-4 的“封閉”模型的最初反應(yīng)是負(fù)面的。

對(duì)此，Schmidt 表示，由于無法看到 GPT-4 是在什么數(shù)據(jù)上訓(xùn)練的，人們很難知道該系統(tǒng)在什么地方可以安全使用并提出修正。

“對(duì)于人們來說，要想對(duì)這個(gè)模型在什么地方不起作用做出明智的決定，他們需要對(duì)它的作用以及其中的假設(shè)有一個(gè)更好的認(rèn)識(shí)，” Schmidt 說，“我不會(huì)相信在沒有雪天氣候經(jīng)驗(yàn)的情況下訓(xùn)練出來的自動(dòng)駕駛汽車；一些漏洞或其他問題，很可能會(huì)在真實(shí)情況下使用時(shí)浮現(xiàn)出來?！?/span>

Lightning AI 首席執(zhí)行官、開源工具 PyTorch Lightning 創(chuàng)建者 William Falcon 表示，人們可以從商業(yè)角度上理解這一決定?！白鳛橐患夜荆耆袡?quán)利這樣做。” 但 Falcon 也認(rèn)為，這一做法為更廣泛的社區(qū)樹立了一個(gè) “壞先例”，并可能產(chǎn)生有害影響。

“如果這個(gè)模型出錯(cuò)了，而且會(huì)出錯(cuò)的，你已經(jīng)看到它出現(xiàn)了幻覺，給你提供了錯(cuò)誤的信息，那么社會(huì)應(yīng)該如何反應(yīng)？” Falcon 說，“倫理研究人員應(yīng)該如何應(yīng)對(duì)并提出解決方案，并說‘這種方式不起作用，也許可以調(diào)整它來做這個(gè)其他事情？’”

一些人建議 OpenAI 隱藏 GPT-4 的構(gòu)建細(xì)節(jié)的另一個(gè)原因是法律責(zé)任。人工智能語言模型是在巨大的文本數(shù)據(jù)集上進(jìn)行訓(xùn)練的，其中很多數(shù)據(jù)是從網(wǎng)絡(luò)上直接獲取的，可能包括受版權(quán)保護(hù)的材料。同樣以互聯(lián)網(wǎng)內(nèi)容為基礎(chǔ)訓(xùn)練數(shù)據(jù)的人工智能 “文生圖”模型，正是因?yàn)檫@個(gè)原因而面臨法律挑戰(zhàn)，目前有幾家公司正被人類藝術(shù)家和圖片庫網(wǎng)站 Getty Images 起訴。

當(dāng)被問及這是否是 OpenAI 沒有分享其訓(xùn)練數(shù)據(jù)的一個(gè)原因時(shí)，Sutskever 表示：“我對(duì)此的看法是，訓(xùn)練數(shù)據(jù)就是技術(shù)（training data is technology）。它可能看起來不是這樣的，但它是。我們不披露訓(xùn)練數(shù)據(jù)的原因與我們不披露參數(shù)數(shù)量的原因基本相同?！?當(dāng)被問及 OpenAI 是否可以明確表示其訓(xùn)練數(shù)據(jù)不包括盜版材料時(shí)，Sutskever 沒有回答。

Sutskever 確實(shí)同意批評(píng)者們的觀點(diǎn)，即開源模型有助于開發(fā)安全措施的想法是有 “價(jià)值” 的。他說：“如果有更多人研究這些模型，我們就能了解更多，那就太好了?！?出于這些原因，OpenAI 向某些學(xué)術(shù)和研究機(jī)構(gòu)提供了訪問其系統(tǒng)的權(quán)限。

關(guān)于共享研究的討論是在人工智能世界發(fā)生狂熱變化的時(shí)候進(jìn)行的，壓力在多個(gè)方面都在增加。在企業(yè)方面，像谷歌和微軟這樣的科技巨頭正急于將人工智能功能添加到他們的產(chǎn)品中，往往將以前的道德問題擱置一邊。（微軟最近解雇了一個(gè)專門負(fù)責(zé)確保其人工智能產(chǎn)品遵循道德準(zhǔn)則的團(tuán)隊(duì)）。在研究方面，技術(shù)本身似乎正在迅速改善，引發(fā)了人們對(duì)人工智能正在成為一個(gè)嚴(yán)重和迫在眉睫的威脅的擔(dān)憂。

The Centre for Long-Term Resilience 人工智能政策負(fù)責(zé)人 Jess Whittlestone 說，平衡這些不同的壓力帶來了嚴(yán)重的治理挑戰(zhàn)——可能需要第三方監(jiān)管機(jī)構(gòu)參與。

“我們看到這些人工智能能力發(fā)展得非?？?，我總體上擔(dān)心這些能力的發(fā)展速度超過了我們的適應(yīng)能力?！?她表示，OpenAI 不分享關(guān)于 GPT-4 的更多細(xì)節(jié)的理由是好的，但也可能導(dǎo)致人工智能世界的權(quán)力集中化。

“不應(yīng)該由個(gè)別公司來做這些決定，” Whittlestone 說，“理想的情況是，我們需要把這里的做法編纂成冊(cè)，然后讓獨(dú)立的第三方在審查與某些模型相關(guān)的風(fēng)險(xiǎn)以及向世界發(fā)布它們是否有意義方面發(fā)揮更大的作用?！?/span>