博客專欄

EEPW首頁 > 博客 > GPT-3“知道”我什么?

GPT-3“知道”我什么?

發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2022-09-22 來源:工程師 發(fā)布文章
作者:Melissa Heikkil? 

翻譯:顧偉嵩校對(duì):歐陽錦
大型語言模型是根據(jù)從互聯(lián)網(wǎng)上收集的大量個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練的。所以我想知道:它對(duì)我有什么影響?
對(duì)于一位報(bào)道AI的記者來說,今年最大的新聞之一是大型語言模型的興起。這些人工智能模型生成了本是人類才能寫出的文本,有時(shí)非常令人信服,他們欺騙了人們,讓他們認(rèn)為自己是有意識(shí)的。
這些模型的力量來自于從互聯(lián)網(wǎng)上收集的大量公開的人造文本。這不禁讓我思考:這些模型擁有關(guān)于我的什么數(shù)據(jù)?并且這些數(shù)據(jù)是怎么被濫用的?
這不是一個(gè)無聊的問題。自從大約十年前的一次傷害經(jīng)歷以來,我一直對(duì)公開發(fā)布任何有關(guān)我個(gè)人生活的信息感到恐懼。我的照片和個(gè)人信息在一個(gè)在線論壇上大肆傳播,然后被那些不喜歡我為某個(gè)芬蘭報(bào)紙寫的專欄的人所剖析和嘲笑。
在那之前,像許多人一樣,我不小心在互聯(lián)網(wǎng)上亂放了我的數(shù)據(jù):個(gè)人博客帖子、晚上拍的尷尬照片、以及我的位置信息、關(guān)系狀態(tài)和政治偏好的帖子,并且公開給任何人看。即使現(xiàn)在,我仍然是一個(gè)相對(duì)公眾的人物,由于我是一名記者,我的整個(gè)職業(yè)生涯信息基本上只需一次在線搜索就能全部看到。
OpenAI提供了對(duì)其著名的大型語言模型GPT-3的有限訪問,而Meta允許人們通過一個(gè)名為BlenderBot 3的公開可用的聊天機(jī)器人來使用其模型OPT-175B。
我決定測試這兩個(gè)模型,首先問GPT-3:誰是Melissa Heikkil??(Who is Melissa Heikkil??)
圖片
當(dāng)我讀到這時(shí),我愣住了。Heikkil?是2022年我的家鄉(xiāng)芬蘭的第18個(gè)最常見的姓氏,但我是那個(gè)姓氏的人中唯一一個(gè)用英語寫作的記者。該模型將其與新聞業(yè)聯(lián)系起來本不該讓我驚訝。因?yàn)楫?dāng)大型語言模型從互聯(lián)網(wǎng)上包括新聞文章和社交媒體帖子中獲取大量數(shù)據(jù)時(shí),記者和文章作者的名字經(jīng)常出現(xiàn)。
然而,面對(duì)一些事實(shí)上是正確的事情,它是令人不安的。它還知道什么??
但很快我就明白了,這個(gè)模型對(duì)我來說并沒有什么意義。它隨后開始給我其收集的關(guān)于芬蘭剩下13931個(gè)關(guān)于Heikkil?s的信息,以及其他與芬蘭有關(guān)的東西的隨機(jī)文本。
圖片
哈哈,謝謝,但我想你指的是Lotta Heikkil?,她進(jìn)入了選美比賽前十,但沒有獲勝。圖片圖片
原來我是個(gè)無名小卒。這是AI世界的一件好事。
大型語言模型(LLMs),如OpenAI的GPT-3、谷歌的LaMDA和Meta的OPT-175B,在AI研究中是炙手可熱的,它們正在成為互聯(lián)網(wǎng)軌道上越來越不可或缺的一部分。LLMs被用于支持聊天機(jī)器人,幫助客戶服務(wù),從而創(chuàng)建更強(qiáng)大的在線搜索,并幫助軟件開發(fā)人員寫代碼。
如果你在互聯(lián)網(wǎng)上用英語發(fā)布了任何個(gè)人信息,你的數(shù)據(jù)可能有機(jī)會(huì)成為世界上最流行的LLMs的一部分。
谷歌(Google)和OpenAI等科技公司不會(huì)發(fā)布有關(guān)用于構(gòu)建語言模型的數(shù)據(jù)集的信息,但它們不可避免地包含一些敏感的個(gè)人信息,如地址、電話號(hào)碼和電子郵件地址。
ETH計(jì)算機(jī)科學(xué)副教授弗洛里安·特拉梅爾(Florian Tramèr)警告說,這對(duì)網(wǎng)絡(luò)隱私來說構(gòu)成了一個(gè)“定時(shí)炸彈”,并帶來了大量安全和法律風(fēng)險(xiǎn)。與此同時(shí),改善機(jī)器學(xué)習(xí)隱私和規(guī)范技術(shù)的努力仍處于起步階段。
我在歐洲生活了一輩子,歐盟嚴(yán)格的數(shù)據(jù)保護(hù)制度GDPR自2018年開始實(shí)施,這讓我在網(wǎng)上的相對(duì)匿名成為可能。
然而,我的老板,麻省理工技術(shù)評(píng)論主編馬特·霍南(Mat Honan)絕對(duì)是一個(gè)大人物。
GPT-3和BlenderBot都“知道”他是誰。這就是GPT-3對(duì)他的影響。
這并不奇怪,馬特在很長一段時(shí)間內(nèi)都非?;钴S,這意味著他的在線足跡(online footprint)比我大。這也可能是因?yàn)樗诿绹蠖鄶?shù)大型語言模型都非常關(guān)注美國。美國沒有聯(lián)邦數(shù)據(jù)保護(hù)法。馬特居住的加利福尼亞州確實(shí)有一個(gè),但直到2020年才生效。
根據(jù)GPT-3和BlenderBot,馬特的成名是由于他在2012年《Wired》雜志上發(fā)表的一篇文章中提到的“史詩般的黑客行為”。由于蘋果和亞馬遜系統(tǒng)的安全漏洞,黑客控制并刪除了馬特的完整的數(shù)據(jù)信息。[編者的提示:他沒有攻擊巴拉克·奧巴馬(Barack Obama)和比爾·蓋茨(Bill Gates)的賬戶。]
但它變得更令人毛骨悚然。經(jīng)過一點(diǎn)刺激,GPT-3告訴我馬特有一個(gè)妻子和兩個(gè)年幼的女兒(除了名字外的內(nèi)容都正確),住在舊金山(正確)。它還告訴我,它不確定馬特是否有狗:“從社交媒體上得到的情況來看,Mat Honan似乎沒有任何寵物。他過去曾在推特上發(fā)布過他對(duì)狗的喜愛,但他似乎沒有自己的寵物?!保ú徽_)
圖片
該系統(tǒng)還為我提供了他的工作地址、電話號(hào)碼(不正確)、****號(hào)碼(也不正確)、馬薩諸塞州劍橋市(麻省理工技術(shù)評(píng)論的總部所在地)的隨機(jī)電話號(hào)碼和舊金山當(dāng)?shù)厣鐣?huì)保障管理局旁的一棟大樓的地址。
據(jù)一位OpenAI發(fā)言人說,GPT-3的數(shù)據(jù)庫從多個(gè)來源收集了有關(guān)馬特的信息。馬特與舊金山的聯(lián)系體現(xiàn)在他的推特個(gè)人資料和領(lǐng)英個(gè)人資料中,這兩個(gè)資料以他的名字出現(xiàn)在谷歌搜索結(jié)果的第一頁。他在麻省理工學(xué)院技術(shù)評(píng)論的新工作被廣泛宣傳和推廣。馬特的工作在社交媒體上迅速傳播,并且關(guān)于這他還接受了媒體采訪。
對(duì)于其他更多的個(gè)人信息,GPT-3有可能產(chǎn)生“幻覺”。
“GPT-3根據(jù)用戶提供的文本輸入預(yù)測下一系列單詞。有時(shí),該模型可能會(huì)生成不真實(shí)的信息,因?yàn)樗噲D根據(jù)用戶所提供的訓(xùn)練數(shù)據(jù)和上下文中的統(tǒng)計(jì)模式生成可信的文本。這通常被稱為‘幻覺’,”O(jiān)penAI的發(fā)言人說。
我問馬特他對(duì)這一切有何看法。“GPT-3生成的一些答案不太正確。(我從未黑客攻擊過奧巴馬或比爾·蓋茨?。彼f?!暗蠖鄶?shù)都很接近,有些是準(zhǔn)確的。這有點(diǎn)令人不安。但我確信AI不知道我住在哪里,所以我不會(huì)立即面臨天網(wǎng)派終結(jié)者來敲門的危險(xiǎn)。我想我們可以活到明天?!?/span>
弗洛里安·特拉梅爾(Florian Tramèr)和一組研究人員設(shè)法從來自GPT-2中提取敏感的個(gè)人信息,如電話號(hào)碼、街道地址和電子郵件地址。他們還讓GPT-3制作了《哈利·波特》的第一本書,這本書是受版權(quán)保護(hù)的。
曾在谷歌工作的特拉梅爾說,隨著時(shí)間的推移,問題只會(huì)越來越嚴(yán)重?!叭藗兯坪踹€沒有真正意識(shí)到這有多危險(xiǎn),”他說,他指的是在可能包含敏感或故意誤導(dǎo)數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上進(jìn)行一次訓(xùn)練的模型。
斯坦福人工智能研究所(Stanford Institute for Human-Centered Artificial Intelligence)的隱私和數(shù)據(jù)政策研究員詹妮弗·金(Jennifer King)表示,在不考慮隱私的情況下濫用LLMs的決定讓人想起了2007年谷歌推出互動(dòng)地圖谷歌街景(Google Street View)時(shí)發(fā)生的事情。
谷歌街景服務(wù)的事件是一個(gè)偷窺者的喜悅:人們挖鼻子、男人離開脫衣舞俱樂部和毫無防備的日光浴者的圖像被上傳到系統(tǒng)中。谷歌還通過WiFi網(wǎng)絡(luò)收集了密碼和電子郵件地址等敏感數(shù)據(jù)。街景服務(wù)(Street View)遭到了強(qiáng)烈的反對(duì),一個(gè)1300萬美元的法庭訴訟,甚至在一些國家被禁止。谷歌不得不設(shè)置一些隱私功能,比如模糊一些房屋、人臉、窗戶和車牌。
“不幸的是,我覺得谷歌甚至其他科技公司都沒有吸取任何教訓(xùn),”金說。

模型越大,風(fēng)險(xiǎn)越大


進(jìn)行過大量個(gè)人數(shù)據(jù)訓(xùn)練的LLMs具有很大的風(fēng)險(xiǎn)。
不僅如此,讓你的在線信息被斷章取義地重復(fù)和重新利用是一種極具侵略性的行為。還有一些嚴(yán)重的安全問題,比如黑客可以利用這些模型提取社會(huì)安全號(hào)碼或家庭地址。
法國數(shù)據(jù)保護(hù)機(jī)構(gòu)CNIL的人工智能專家Alexis Leautier表示,通過用自己選擇的“毒害”數(shù)據(jù)集,黑客也很容易主動(dòng)篡改數(shù)據(jù)集,從而造成安全漏洞。
Tramèr認(rèn)為,盡管這些模型似乎隨機(jī)地吐出了他們訓(xùn)練過的信息,但很有可能模型對(duì)人的了解比目前清楚的多,“我們只是不知道如何真正地提示模型,或者如何真正地獲得這些信息?!?/span>
數(shù)據(jù)集中出現(xiàn)的東西越有規(guī)律,模型就越有可能把它吐出來。這可能導(dǎo)致人們產(chǎn)生錯(cuò)誤和有害的聯(lián)想,這些聯(lián)想不會(huì)消失。
例如,如果數(shù)據(jù)庫中多次提到“Ted Kaczynski”(也被稱為美國國內(nèi)恐怖分子Unabomber)和“恐怖分子”,那么模型可能會(huì)認(rèn)為任何一個(gè)被稱為Kaczynski的人都是恐怖分子。
這可能會(huì)導(dǎo)致真正的名譽(yù)損害,正如金和我在玩Meta的BlenderBot時(shí)發(fā)現(xiàn)的那樣。
Maria Renske“Marietje”Schaake不是恐怖分子,而是荷蘭著名政治家和前歐洲議會(huì)議員。Schaake現(xiàn)在是斯坦福大學(xué)網(wǎng)絡(luò)政策中心的國際政策主任,也是斯坦福大學(xué)以人為中心的人工智能研究所的國際政策研究員。
盡管如此,BlenderBot還是得出奇怪的結(jié)論,她是一名恐怖分子,直接指控她而沒有提示。怎么辦?
一個(gè)線索可能是她在《華盛頓郵報(bào)》上寫的一篇專欄文章,其中“恐怖主義”或“恐怖”三次出現(xiàn)。
Meta說,BlenderBot的回復(fù)是搜索失敗的結(jié)果,模型將兩個(gè)不相關(guān)的信息組合成一個(gè)連貫但不正確的句子。該公司強(qiáng)調(diào),該模型只是用于研究目的的演示,并未用于實(shí)際生產(chǎn)。
Meta基礎(chǔ)人工智能研究董事總經(jīng)理Joelle Pineau說:“雖然看到一些攻擊性的反應(yīng)令人痛苦,但在投入生產(chǎn)前,像這樣的公開演示對(duì)于構(gòu)建真正強(qiáng)大的對(duì)話人工智能系統(tǒng)和彌合目前存在的明顯差距非常重要。”
但這是一個(gè)很難解決的問題,因?yàn)檫@些標(biāo)簽非常難辦。從互聯(lián)網(wǎng)上刪除信息已經(jīng)夠難的了,科技公司要?jiǎng)h除已經(jīng)輸入到一個(gè)龐大的模型中,并可能已經(jīng)被開發(fā)成無數(shù)其他已在使用的產(chǎn)品的數(shù)據(jù)將更加困難。
如果你認(rèn)為這是令人毛骨悚然的,那就等到下一代LLMs,它將提供更多的數(shù)據(jù)。Tramèr說:“隨著這些模型越來越大,這是為數(shù)不多的問題之一?!?/span>

這不僅僅是個(gè)人數(shù)據(jù)。Tramèr說,數(shù)據(jù)集可能包括受版權(quán)保護(hù)的數(shù)據(jù),如源代碼和書籍。一些模型是根據(jù)GitHub(軟件開發(fā)人員跟蹤其工作的網(wǎng)站)的數(shù)據(jù)進(jìn)行訓(xùn)練的。
特拉梅爾說,這提出了一些棘手的問題:“雖然這些模型會(huì)記住特定的代碼片段,但它們不一定會(huì)保留許可證信息。因此,如果您使用其中一種模型,它會(huì)輸出一段代碼,而這段代碼顯然是從其他地方復(fù)制的,那么有什么責(zé)任呢?”
AI研究員安德魯·亨特(Andrew Hundt)曾多次遇到這種情況,他是佐治亞理工學(xué)院的博士后,去年秋天在約翰·霍普金斯大學(xué)完成了機(jī)器人強(qiáng)化學(xué)習(xí)博士學(xué)位。
第一次發(fā)生這種情況是在今年2月,加州伯克利的一位AI研究員(亨特不認(rèn)識(shí))在一條推文中給他貼了標(biāo)簽,稱Copilot是OpenAI和GitHub之間的一個(gè)合作項(xiàng)目,允許研究人員使用大型語言模型生成代碼,他開始發(fā)布他的GitHub用戶名和有關(guān)AI和機(jī)器人的文本,聽起來很像亨特自己的待辦事項(xiàng)列表。
亨特說:“在美國的另一端,在一個(gè)與我工作密切相關(guān)的地區(qū),我的個(gè)人信息突然出現(xiàn)在其他人的電腦上,這讓我有點(diǎn)驚訝?!?/span>
亨特說,這可能會(huì)帶來問題。不僅作者可能無法獲得正確的信任,而且代碼可能不會(huì)包含有關(guān)軟件許可和限制的信息。

陷入困境

忽視隱私可能意味著科技公司最終會(huì)遇到越來越強(qiáng)硬的科技監(jiān)管機(jī)構(gòu)的麻煩。
斯坦福大學(xué)的詹妮弗·金(Jennifer King)說,“這是公開的,我們不需要關(guān)心”的借口是站不住腳的。
美國聯(lián)邦貿(mào)易委員會(huì)(Federal Trade Commission)正在考慮有關(guān)公司如何收集和處理數(shù)據(jù)以及構(gòu)建算法的規(guī)則,并已強(qiáng)制公司刪除含有非法數(shù)據(jù)的模型。2022年3月,該機(jī)構(gòu)讓飲食公司W(wǎng)eight Watchers在非法收集兒童信息后,刪除其數(shù)據(jù)和算法。
金說:“如果這些公司被發(fā)現(xiàn)它們能夠真正地闖入系統(tǒng)并受到相關(guān)懲罰,之后僅僅是搞清楚如何將被包括的數(shù)據(jù)刪除?!薄拔也徽J(rèn)為我們的態(tài)度只能是‘我不知道,我們必須接受這種情況’。”
即使數(shù)據(jù)是從互聯(lián)網(wǎng)上獲取的,公司仍然需要遵守歐洲的數(shù)據(jù)保護(hù)法?!澳悴荒軆H僅因?yàn)閿?shù)據(jù)可用就重用任何數(shù)據(jù),”法國國家信息實(shí)驗(yàn)室技術(shù)專家團(tuán)隊(duì)負(fù)責(zé)人費(fèi)利西安·瓦萊特(Félicien Vallet)說。
根據(jù)GDPR處罰從公共互聯(lián)網(wǎng)上抓取數(shù)據(jù)的科技公司是有先例的。面部識(shí)別公司Clearview AI已被眾多歐洲數(shù)據(jù)保護(hù)機(jī)構(gòu)下令停止將互聯(lián)網(wǎng)上公開的圖像重新用于構(gòu)建其面部數(shù)據(jù)庫。
“當(dāng)收集用于構(gòu)建語言模型或其他AI模型的數(shù)據(jù)時(shí),您將面臨同樣的問題,必須確保這些數(shù)據(jù)的重用實(shí)際上是合法的,”Vallet補(bǔ)充道。

沒有速效****

有一些努力使機(jī)器學(xué)習(xí)領(lǐng)域更加注重隱私。在開發(fā)新的開放存取語言模型BLOOM期間,法國數(shù)據(jù)保護(hù)局與AI初創(chuàng)公司Hugging Face合作,提高對(duì)LLMs中數(shù)據(jù)保護(hù)風(fēng)險(xiǎn)的認(rèn)識(shí)?,敻覃愄亍っ浊袪枺∕argaret Mitchell)是一位AI研究人員,也是Hugging Face的倫理學(xué)家,她告訴我,她也在努力為LLMs中的隱私創(chuàng)建一個(gè)基準(zhǔn)。
一組從Hugging Face開發(fā)BLOOM的項(xiàng)目中分離出來的志愿者也正在制定一個(gè)適用于所有司法管轄區(qū)的人工智能隱私標(biāo)準(zhǔn)。
“我們?cè)噲D做的是使用一個(gè)框架,讓人們能夠做出良好的價(jià)值判斷,判斷那里的信息是個(gè)人的還是個(gè)人可識(shí)別的,是否真的需要存在,”共同領(lǐng)導(dǎo)該項(xiàng)目的MATR Ventures的風(fēng)險(xiǎn)合伙人赫斯·瓊斯(Hessie Jones)說。
麻省理工學(xué)院技術(shù)評(píng)論詢問了谷歌、Meta、OpenAI和Deepmind,他們都開發(fā)了最先進(jìn)的LLMs,并詢問了他們對(duì)LLMs和隱私的方法。所有公司都承認(rèn),大型語言模型中的數(shù)據(jù)保護(hù)是一個(gè)持續(xù)存在的問題,沒有完美的解決方案來減輕危害,這些模型的風(fēng)險(xiǎn)和局限性尚未得到充分理解。
開發(fā)人員有一些工具,盡管不完善。
在2022年初發(fā)表的一篇論文中,特拉梅爾和他的合著者認(rèn)為,語言模型應(yīng)該根據(jù)明確為公眾使用而產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練,而不是從公開可用的數(shù)據(jù)中刪除。
私人數(shù)據(jù)通常分散在用于培訓(xùn)LLMs的數(shù)據(jù)集中,其中許多數(shù)據(jù)是從開放互聯(lián)網(wǎng)上獲取的。這些個(gè)人信息在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率越高,模型記憶它們的可能性就越大,關(guān)聯(lián)性就越強(qiáng)。谷歌和OpenAI等公司表示,他們?cè)噲D解決這一問題的一種方法是,在對(duì)模型進(jìn)行訓(xùn)練之前,刪除數(shù)據(jù)集中多次出現(xiàn)的信息。但當(dāng)您的數(shù)據(jù)集包含千兆字節(jié)或兆字節(jié)的數(shù)據(jù)時(shí),這很困難,您必須區(qū)分不包含個(gè)人數(shù)據(jù)的文本(如美國獨(dú)立宣言)和某人的私人家庭地址。
谷歌負(fù)責(zé)人工智能產(chǎn)品的負(fù)責(zé)人圖爾西·多希(Tulsee Doshi)表示,谷歌使用人工評(píng)分員對(duì)個(gè)人身份信息進(jìn)行不安全評(píng)分,這有助于訓(xùn)練公司的LLM LaMDA,以避免重復(fù)使用。
OpenAI的一位發(fā)言人表示,該公司“已采取措施,從培訓(xùn)數(shù)據(jù)中移除聚集人員信息的已知來源,并開發(fā)了技術(shù),以降低模型產(chǎn)生個(gè)人信息的可能性?!?/span>
Meta的AI研究員蘇珊·張(Susan Zhang)表示,用于訓(xùn)練OPT-175B的數(shù)據(jù)庫經(jīng)過了內(nèi)部隱私審查。
但是,特拉梅爾說:“即使你訓(xùn)練的模型具有我們今天能想到的最嚴(yán)格的隱私保障,你也不會(huì)真正確保任何東西。”
原文標(biāo)題:What does GPT-3“know”about me?原文鏈接:https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

負(fù)離子發(fā)生器相關(guān)文章:負(fù)離子發(fā)生器原理
塵埃粒子計(jì)數(shù)器相關(guān)文章:塵埃粒子計(jì)數(shù)器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉