聯(lián)邦政府任命“AI末日論者”負責美國AI安全研究所

作者：EEPW 時間：2024-04-19 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

美國AI安全研究所——隸屬于國家標準技術(shù)研究所（NIST）——在經(jīng)過多方猜測后，終于宣布了其領(lǐng)導團隊。

本文引用地址：http://2s4d.com/article/202404/457839.htm

被任命為AI安全負責人的是Paul Christiano，一位前OpenAI研究員，他開創(chuàng)了一種基礎(chǔ)AI安全技術(shù)，稱為從人類反饋中學習的強化學習（RLHF），但他也因預(yù)測“AI發(fā)展有50%的機會以‘末日’結(jié)束”而聞名。盡管Christiano的研究背景令人印象深刻，但一些人擔心通過任命所謂的“AI末日論者”，NIST可能會鼓勵許多批評者視為純粹猜測的非科學思維。

有傳言稱，NIST工作人員反對此次任命。VentureBeat上個月發(fā)表的一篇有爭議的報道引用了兩位匿名消息人士的說法，聲稱由于Christiano的所謂“AI末日論”觀點，NIST工作人員“發(fā)生了動蕩”。VentureBeat報道稱，一些工作人員和科學家聲稱威脅要辭職，擔心“Christiano的關(guān)聯(lián)”與有效利他主義和“長期主義可能會損害該機構(gòu)的客觀性和完整性?！?/p>

NIST的使命根植于推動科學發(fā)展，通過推動測量科學、標準和技術(shù)的發(fā)展，促進美國創(chuàng)新和工業(yè)競爭力的提升，從而增強經(jīng)濟安全并改善我們的生活質(zhì)量。有效利他主義者相信“利用證據(jù)和理性來找出如何盡可能多地造福他人”，長期主義者則認為“我們應(yīng)該更多地保護未來幾代人的利益”，這兩者都更具主觀性和意見性。

在Bankless播客上，Christiano去年分享了他的觀點，稱“AI接管”的機會大約有“10-20%”，這將導致人類死亡，而“總體而言，一旦你擁有人類水平的AI系統(tǒng)，你可能會更接近50-50的‘末日’機會?！?/p>

“我們死亡的最可能方式不是AI突然出現(xiàn)并殺死所有人，而是我們已經(jīng)在各處部署了大量的AI……[而且]如果不幸，所有這些AI系統(tǒng)都試圖殺死我們，它們肯定會殺死我們，”Christiano說道。

所謂“AI末日論者”的批評者警告稱，將注意力集中在任何潛在夸大的對假想的殺手AI系統(tǒng)或存在主義AI風險的討論上，可能會阻止人類將注意力集中在當前AI的實際危害上，包括環(huán)境、隱私、道德和偏見問題。華盛頓大學計算語言學教授Emily Bender曾警告稱，由于“怪異的AI末日論話語”被包含在喬·拜登的AI行政命令中，“NIST已被指示擔心這些幻想般的情景”，而“這就是導致Christiano被任命的根本問題”。

Bender告訴Ars說：“我認為NIST可能有機會將其研究引向不同的方向，”“但遺憾的是他們沒有?！?/p>

作為AI安全負責人，Christiano似乎將不得不監(jiān)測當前和潛在的風險。美國商務(wù)部的新聞稿稱，他將“設(shè)計和執(zhí)行前沿AI模型的測試，重點關(guān)注具有國家安全關(guān)切的模型評估”，引導評估流程，并實施“風險緩解措施，以增強前沿模型的安全性和安全性”。

Christiano在減輕AI風險方面有豐富的經(jīng)驗。他離開OpenAI創(chuàng)立了Alignment Research Center（ARC），美國商務(wù)部將其描述為“一個非營利性研究機構(gòu)，旨在通過推進理論研究，將未來的機器學習系統(tǒng)與人類利益保持一致?！?ARC的使命之一是測試AI系統(tǒng)是否在演變?yōu)椴倏v或欺騙人類，ARC的網(wǎng)站上寫道。ARC還進行研究，幫助AI系統(tǒng)“優(yōu)雅地擴展”。

由于Christiano的研究背景，一些人認為他是領(lǐng)導安全研究所的不錯選擇，比如美國科學家聯(lián)合會新興技術(shù)與國家安全副主任Divyansh Kaushik。在X（前稱Twitter）上，Kaushik寫道，安全研究所的目標是從AI中減輕化學、生物、放射和核風險，而Christiano“非常合格”于測試這些AI模型。不過，Kaushik警告說，“如果有關(guān)NIST科學家因Christiano的任命而威脅要辭職”的消息屬實，“那顯然將是嚴重的事情?！?/p>

美國商務(wù)部不對其人員進行評論，因此目前尚不清楚是否有人因為Christiano的任命而辭職或計劃辭職。自宣布后，Ars并未找到任何NIST工作人員公開宣布他們可能考慮辭職的公告。

除了Christiano之外，安全研究所的領(lǐng)導團隊還包括Mara Quintero Campbell，一位在COVID應(yīng)對和CHIPS法案實施方面領(lǐng)導項目的商務(wù)部官員，擔任代理首席運營官和首席幕僚。Adam Russell，一位專注于人工智能團隊合作、預(yù)測和集體智能的專家，將擔任首席視覺官。Rob Reich，一位來自斯坦福大學的以人為本的AI專家，將擔任高級顧問。而Mark Latonero，一位曾擔任白宮全球AI政策專家，幫助起草了拜登的AI行政命令，將擔任國際事務(wù)負責人。

美國商務(wù)部長吉娜·雷蒙多在新聞稿中表示：“為了保護我們在負責任的AI領(lǐng)域的全球領(lǐng)導地位，并確保我們能夠履行我們減輕AI風險并利用其好處的使命，我們需要國家能提供的頂級人才?！薄斑@正是我們選擇這些在其領(lǐng)域最優(yōu)秀的人士加入美國AI安全研究所執(zhí)行領(lǐng)導團隊的原因?！?/p>

VentureBeat的報道聲稱，雷蒙多直接任命了Christiano。

Bender告訴Ars說，NIST在研究“政府和非政府機構(gòu)如何使用自動化技術(shù)”的過程中包含“末日情景”沒有任何優(yōu)勢。

Bender告訴Ars說：“AI安全敘事的根本問題在于它將人從圖景中剔除了，”“但我們需要擔心的是人們?nèi)绾卫眉夹g(shù)，而不是技術(shù)自主地做些什么?！?/p>

Christiano解釋了他對AI末日的看法Ars無法立即聯(lián)系到Christiano評論，但他已經(jīng)解釋了他對AI末日和負責任的AI擴展的看法。

在LessWrong上發(fā)布的一篇博客中，他解釋了導致人們對他的AI末日看法產(chǎn)生困惑的兩個區(qū)別。

第一個區(qū)別“是死亡（‘滅絕風險’）和有一個糟糕的未來（‘存在風險’）之間的區(qū)別”，澄清說他認為“在沒有滅絕的情況下存在糟糕的未來的機會很大，例如，AI系統(tǒng)接管但并不殺死每個人?！币粋€“糟糕的未來”的版本將是“世界由AI系統(tǒng)統(tǒng)治，而我們無法建造與我們的價值觀相符或關(guān)心幫助我們的AI系統(tǒng)”，Christiano說，“這可能甚至不是一個客觀糟糕的未來。”

“但這確實意味著人類放棄了對自己命運的控制，我認為從期望值來看，這是相當糟糕的，”Christiano寫道。

另一個區(qū)別是“現(xiàn)在死亡和以后死亡之間”，Christiano說，澄清說死亡以后可能并不完全“來自AI”，而是來自AI進步之后的環(huán)境。

“我認為我們不會因為AI而死亡，但是AI和其他技術(shù)可能會加速世界變化的速度，所以在不久的將來有些其他事物會殺死我們，”Christiano寫道。

在那篇文章中，Christiano詳細說明了他估計的AI接管（22％）的可能性，即“在建立強大的AI使勞動變得過時后的10年內(nèi)，大多數(shù)”人會死亡（20％），以及“在建立強大的AI后的10年內(nèi)，人類以某種方式已經(jīng)不可逆地破壞了我們的未來”（46％）。

他澄清說，這些概率僅用于“量化和傳達我相信的東西，而不是聲稱我有某種校準模型來產(chǎn)生這些數(shù)字?！彼f這些數(shù)字基本上是猜測，經(jīng)常因為他收到新信息而改變。

“只有一個這些猜測甚至與我的日常工作相關(guān)（15％的AI系統(tǒng)由人類構(gòu)建將接管的概率），”Christiano寫道?！皩τ谄渌麊栴}，我只是一個稍微經(jīng)過一點思考的人。我不建議依靠15％，但絕對不建議依靠其他任何東西?！?/p>

在2023年，Christiano的非營利組織ARC幫助測試了OpenAI的GPT-4是否會接管世界，并最終得出結(jié)論，即GPT-4并不構(gòu)成滅絕風險，因為它在“自主復(fù)制方面”“無效”。由于ARC擔心AI系統(tǒng)操縱人類，Christiano曾在LessWrong上發(fā)表評論，稱增強功能研究在AI系統(tǒng)變得更加智能時變得更加重要。這表明他在評估系統(tǒng)方面的工作將是一項關(guān)鍵工作。

“在這一點上，似乎我們面臨的風險更大，來自低估模型能力并走向危險，而不是在評估過程中造成事故，”Christiano寫道?！叭绻覀冃⌒墓芾盹L險，我認為我們可以使這種比率非常極端，盡管當然，這需要我們真正做這項工作?！?/p>

Christiano對暫停AI發(fā)展的看法Christiano并不是唯一一個警告AI存在的滅絕風險的人。在過去一年中，從OpenAI高管到28個國家的領(lǐng)導人，所有人都對潛在的“災(zāi)難性”AI危害發(fā)出警告。但是像Meta首席AI科學家Yann LeCun這樣的批評者則反駁說，圍繞滅絕風險的整個辯論是“嚴重夸大和非常過早的”。

在AI安全研究所，Christiano將有機會在建造、測試和投資于AI的人聲稱AI發(fā)展的速度正在超越風險評估的時候，減輕實際的AI風險。如果埃隆·馬斯克所說的有一定道理的話，即AI“可能會在明年底之前比任何一個人類都聰明?！?/p>

為了減少意外，Christiano的團隊將需要完善風險評估，因為他預(yù)計模型將變得更加智能，并且微調(diào)它們將變得更加危險。去年十月，在有效利他主義論壇上，Christiano寫道，需要法規(guī)來約束AI公司。

“足夠好的負責任的擴展政策（RSPs）可以通過”為關(guān)鍵保護措施創(chuàng)建緊迫性并增加“如果這些措施不能迅速實施，暫停[AI發(fā)展]的概率”，從而顯著減少風險，Christiano解釋道。

即使有關(guān)擴展的法規(guī)，Christiano警告說，“快速AI發(fā)展的風險非常大，即使非常好的RSPs也不會完全消除這種風險?！?/p>

盡管一些擔心AI存在滅絕風險的批評者在過去一年中呼吁暫停AI前沿的發(fā)展，直到保護措施得到改進，但Christiano辯稱，只有全球統(tǒng)一的暫停才會沒有顯著的成本。

目前，Christiano表示不需要暫停，因為“當前的風險水平低到足以證明，如果公司或國家有一個足夠好的計劃來檢測和應(yīng)對風險的增加，他們可以繼續(xù)發(fā)展AI?！?/p>

新聞中心

聯(lián)邦政府任命“AI末日論者”負責美國AI安全研究所

評論

相關(guān)推薦

技術(shù)專區(qū)