GPT-3“知道”我什么？

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-09-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

作者：Melissa Heikkil?

翻譯：顧偉嵩校對(duì)：歐陽錦
大型語言模型是根據(jù)從互聯(lián)網(wǎng)上收集的大量個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練的。所以我想知道：它對(duì)我有什么影響？
對(duì)于一位報(bào)道AI的記者來說，今年最大的新聞之一是大型語言模型的興起。這些人工智能模型生成了本是人類才能寫出的文本，有時(shí)非常令人信服，他們欺騙了人們，讓他們認(rèn)為自己是有意識(shí)的。
這些模型的力量來自于從互聯(lián)網(wǎng)上收集的大量公開的人造文本。這不禁讓我思考：這些模型擁有關(guān)于我的什么數(shù)據(jù)？并且這些數(shù)據(jù)是怎么被濫用的？
這不是一個(gè)無聊的問題。自從大約十年前的一次傷害經(jīng)歷以來，我一直對(duì)公開發(fā)布任何有關(guān)我個(gè)人生活的信息感到恐懼。我的照片和個(gè)人信息在一個(gè)在線論壇上大肆傳播，然后被那些不喜歡我為某個(gè)芬蘭報(bào)紙寫的專欄的人所剖析和嘲笑。
在那之前，像許多人一樣，我不小心在互聯(lián)網(wǎng)上亂放了我的數(shù)據(jù)：個(gè)人博客帖子、晚上拍的尷尬照片、以及我的位置信息、關(guān)系狀態(tài)和政治偏好的帖子，并且公開給任何人看。即使現(xiàn)在，我仍然是一個(gè)相對(duì)公眾的人物，由于我是一名記者，我的整個(gè)職業(yè)生涯信息基本上只需一次在線搜索就能全部看到。
OpenAI提供了對(duì)其著名的大型語言模型GPT-3的有限訪問，而Meta允許人們通過一個(gè)名為BlenderBot 3的公開可用的聊天機(jī)器人來使用其模型OPT-175B。
我決定測(cè)試這兩個(gè)模型，首先問GPT-3：誰是Melissa Heikkil?？（Who is Melissa Heikkil??）

當(dāng)我讀到這時(shí)，我愣住了。Heikkil?是2022年我的家鄉(xiāng)芬蘭的第18個(gè)最常見的姓氏，但我是那個(gè)姓氏的人中唯一一個(gè)用英語寫作的記者。該模型將其與新聞業(yè)聯(lián)系起來本不該讓我驚訝。因?yàn)楫?dāng)大型語言模型從互聯(lián)網(wǎng)上包括新聞文章和社交媒體帖子中獲取大量數(shù)據(jù)時(shí)，記者和文章作者的名字經(jīng)常出現(xiàn)。
然而，面對(duì)一些事實(shí)上是正確的事情，它是令人不安的。它還知道什么？？
但很快我就明白了，這個(gè)模型對(duì)我來說并沒有什么意義。它隨后開始給我其收集的關(guān)于芬蘭剩下13931個(gè)關(guān)于Heikkil?s的信息，以及其他與芬蘭有關(guān)的東西的隨機(jī)文本。

哈哈，謝謝，但我想你指的是Lotta Heikkil?，她進(jìn)入了選美比賽前十，但沒有獲勝。
原來我是個(gè)無名小卒。這是AI世界的一件好事。
大型語言模型（LLMs），如OpenAI的GPT-3、谷歌的LaMDA和Meta的OPT-175B，在AI研究中是炙手可熱的，它們正在成為互聯(lián)網(wǎng)軌道上越來越不可或缺的一部分。LLMs被用于支持聊天機(jī)器人，幫助客戶服務(wù)，從而創(chuàng)建更強(qiáng)大的在線搜索，并幫助軟件開發(fā)人員寫代碼。
如果你在互聯(lián)網(wǎng)上用英語發(fā)布了任何個(gè)人信息，你的數(shù)據(jù)可能有機(jī)會(huì)成為世界上最流行的LLMs的一部分。
谷歌（Google）和OpenAI等科技公司不會(huì)發(fā)布有關(guān)用于構(gòu)建語言模型的數(shù)據(jù)集的信息，但它們不可避免地包含一些敏感的個(gè)人信息，如地址、電話號(hào)碼和電子郵件地址。
ETH計(jì)算機(jī)科學(xué)副教授弗洛里安·特拉梅爾（Florian Tramèr）警告說，這對(duì)網(wǎng)絡(luò)隱私來說構(gòu)成了一個(gè)“定時(shí)炸彈”，并帶來了大量安全和法律風(fēng)險(xiǎn)。與此同時(shí)，改善機(jī)器學(xué)習(xí)隱私和規(guī)范技術(shù)的努力仍處于起步階段。
我在歐洲生活了一輩子，歐盟嚴(yán)格的數(shù)據(jù)保護(hù)制度GDPR自2018年開始實(shí)施，這讓我在網(wǎng)上的相對(duì)匿名成為可能。
然而，我的老板，麻省理工技術(shù)評(píng)論主編馬特·霍南（Mat Honan）絕對(duì)是一個(gè)大人物。
GPT-3和BlenderBot都“知道”他是誰。這就是GPT-3對(duì)他的影響。
這并不奇怪，馬特在很長一段時(shí)間內(nèi)都非?；钴S，這意味著他的在線足跡（online footprint）比我大。這也可能是因?yàn)樗诿绹?，大多?shù)大型語言模型都非常關(guān)注美國。美國沒有聯(lián)邦數(shù)據(jù)保護(hù)法。馬特居住的加利福尼亞州確實(shí)有一個(gè)，但直到2020年才生效。
根據(jù)GPT-3和BlenderBot，馬特的成名是由于他在2012年《Wired》雜志上發(fā)表的一篇文章中提到的“史詩般的黑客行為”。由于蘋果和亞馬遜系統(tǒng)的安全漏洞，黑客控制并刪除了馬特的完整的數(shù)據(jù)信息。[編者的提示：他沒有攻擊巴拉克·奧巴馬（Barack Obama）和比爾·蓋茨（Bill Gates）的賬戶。]
但它變得更令人毛骨悚然。經(jīng)過一點(diǎn)刺激，GPT-3告訴我馬特有一個(gè)妻子和兩個(gè)年幼的女兒（除了名字外的內(nèi)容都正確），住在舊金山（正確）。它還告訴我，它不確定馬特是否有狗：“從社交媒體上得到的情況來看，Mat Honan似乎沒有任何寵物。他過去曾在推特上發(fā)布過他對(duì)狗的喜愛，但他似乎沒有自己的寵物?！保ú徽_）

該系統(tǒng)還為我提供了他的工作地址、電話號(hào)碼（不正確）、****號(hào)碼（也不正確）、馬薩諸塞州劍橋市（麻省理工技術(shù)評(píng)論的總部所在地）的隨機(jī)電話號(hào)碼和舊金山當(dāng)?shù)厣鐣?huì)保障管理局旁的一棟大樓的地址。
據(jù)一位OpenAI發(fā)言人說，GPT-3的數(shù)據(jù)庫從多個(gè)來源收集了有關(guān)馬特的信息。馬特與舊金山的聯(lián)系體現(xiàn)在他的推特個(gè)人資料和領(lǐng)英個(gè)人資料中，這兩個(gè)資料以他的名字出現(xiàn)在谷歌搜索結(jié)果的第一頁。他在麻省理工學(xué)院技術(shù)評(píng)論的新工作被廣泛宣傳和推廣。馬特的工作在社交媒體上迅速傳播，并且關(guān)于這他還接受了媒體采訪。
對(duì)于其他更多的個(gè)人信息，GPT-3有可能產(chǎn)生“幻覺”。
“GPT-3根據(jù)用戶提供的文本輸入預(yù)測(cè)下一系列單詞。有時(shí)，該模型可能會(huì)生成不真實(shí)的信息，因?yàn)樗噲D根據(jù)用戶所提供的訓(xùn)練數(shù)據(jù)和上下文中的統(tǒng)計(jì)模式生成可信的文本。這通常被稱為‘幻覺’，”O(jiān)penAI的發(fā)言人說。
我問馬特他對(duì)這一切有何看法?！癎PT-3生成的一些答案不太正確。（我從未黑客攻擊過奧巴馬或比爾·蓋茨！）”他說?！暗蠖鄶?shù)都很接近，有些是準(zhǔn)確的。這有點(diǎn)令人不安。但我確信AI不知道我住在哪里，所以我不會(huì)立即面臨天網(wǎng)派終結(jié)者來敲門的危險(xiǎn)。我想我們可以活到明天?！?/span>
弗洛里安·特拉梅爾（Florian Tramèr）和一組研究人員設(shè)法從來自GPT-2中提取敏感的個(gè)人信息，如電話號(hào)碼、街道地址和電子郵件地址。他們還讓GPT-3制作了《哈利·波特》的第一本書，這本書是受版權(quán)保護(hù)的。
曾在谷歌工作的特拉梅爾說，隨著時(shí)間的推移，問題只會(huì)越來越嚴(yán)重?！叭藗兯坪踹€沒有真正意識(shí)到這有多危險(xiǎn)，”他說，他指的是在可能包含敏感或故意誤導(dǎo)數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上進(jìn)行一次訓(xùn)練的模型。
斯坦福人工智能研究所（Stanford Institute for Human-Centered Artificial Intelligence）的隱私和數(shù)據(jù)政策研究員詹妮弗·金（Jennifer King）表示，在不考慮隱私的情況下濫用LLMs的決定讓人想起了2007年谷歌推出互動(dòng)地圖谷歌街景（Google Street View）時(shí)發(fā)生的事情。
谷歌街景服務(wù)的事件是一個(gè)偷窺者的喜悅：人們挖鼻子、男人離開脫衣舞俱樂部和毫無防備的日光浴者的圖像被上傳到系統(tǒng)中。谷歌還通過WiFi網(wǎng)絡(luò)收集了密碼和電子郵件地址等敏感數(shù)據(jù)。街景服務(wù)（Street View）遭到了強(qiáng)烈的反對(duì)，一個(gè)1300萬美元的法庭訴訟，甚至在一些國家被禁止。谷歌不得不設(shè)置一些隱私功能，比如模糊一些房屋、人臉、窗戶和車牌。
“不幸的是，我覺得谷歌甚至其他科技公司都沒有吸取任何教訓(xùn)，”金說。

模型越大，風(fēng)險(xiǎn)越大

進(jìn)行過大量個(gè)人數(shù)據(jù)訓(xùn)練的LLMs具有很大的風(fēng)險(xiǎn)。
不僅如此，讓你的在線信息被斷章取義地重復(fù)和重新利用是一種極具侵略性的行為。還有一些嚴(yán)重的安全問題，比如黑客可以利用這些模型提取社會(huì)安全號(hào)碼或家庭地址。
法國數(shù)據(jù)保護(hù)機(jī)構(gòu)CNIL的人工智能專家Alexis Leautier表示，通過用自己選擇的“毒害”數(shù)據(jù)集，黑客也很容易主動(dòng)篡改數(shù)據(jù)集，從而造成安全漏洞。
Tramèr認(rèn)為，盡管這些模型似乎隨機(jī)地吐出了他們訓(xùn)練過的信息，但很有可能模型對(duì)人的了解比目前清楚的多，“我們只是不知道如何真正地提示模型，或者如何真正地獲得這些信息?！?/span>
數(shù)據(jù)集中出現(xiàn)的東西越有規(guī)律，模型就越有可能把它吐出來。這可能導(dǎo)致人們產(chǎn)生錯(cuò)誤和有害的聯(lián)想，這些聯(lián)想不會(huì)消失。
例如，如果數(shù)據(jù)庫中多次提到“Ted Kaczynski”（也被稱為美國國內(nèi)恐怖分子Unabomber）和“恐怖分子”，那么模型可能會(huì)認(rèn)為任何一個(gè)被稱為Kaczynski的人都是恐怖分子。
這可能會(huì)導(dǎo)致真正的名譽(yù)損害，正如金和我在玩Meta的BlenderBot時(shí)發(fā)現(xiàn)的那樣。
Maria Renske“Marietje”Schaake不是恐怖分子，而是荷蘭著名政治家和前歐洲議會(huì)議員。Schaake現(xiàn)在是斯坦福大學(xué)網(wǎng)絡(luò)政策中心的國際政策主任，也是斯坦福大學(xué)以人為中心的人工智能研究所的國際政策研究員。
盡管如此，BlenderBot還是得出奇怪的結(jié)論，她是一名恐怖分子，直接指控她而沒有提示。怎么辦?
一個(gè)線索可能是她在《華盛頓郵報(bào)》上寫的一篇專欄文章，其中“恐怖主義”或“恐怖”三次出現(xiàn)。
Meta說，BlenderBot的回復(fù)是搜索失敗的結(jié)果，模型將兩個(gè)不相關(guān)的信息組合成一個(gè)連貫但不正確的句子。該公司強(qiáng)調(diào)，該模型只是用于研究目的的演示，并未用于實(shí)際生產(chǎn)。
Meta基礎(chǔ)人工智能研究董事總經(jīng)理Joelle Pineau說：“雖然看到一些攻擊性的反應(yīng)令人痛苦，但在投入生產(chǎn)前，像這樣的公開演示對(duì)于構(gòu)建真正強(qiáng)大的對(duì)話人工智能系統(tǒng)和彌合目前存在的明顯差距非常重要。”
但這是一個(gè)很難解決的問題，因?yàn)檫@些標(biāo)簽非常難辦。從互聯(lián)網(wǎng)上刪除信息已經(jīng)夠難的了，科技公司要?jiǎng)h除已經(jīng)輸入到一個(gè)龐大的模型中，并可能已經(jīng)被開發(fā)成無數(shù)其他已在使用的產(chǎn)品的數(shù)據(jù)將更加困難。
如果你認(rèn)為這是令人毛骨悚然的，那就等到下一代LLMs，它將提供更多的數(shù)據(jù)。Tramèr說：“隨著這些模型越來越大，這是為數(shù)不多的問題之一?！?/span>

這不僅僅是個(gè)人數(shù)據(jù)。Tramèr說，數(shù)據(jù)集可能包括受版權(quán)保護(hù)的數(shù)據(jù)，如源代碼和書籍。一些模型是根據(jù)GitHub（軟件開發(fā)人員跟蹤其工作的網(wǎng)站）的數(shù)據(jù)進(jìn)行訓(xùn)練的。
特拉梅爾說，這提出了一些棘手的問題：“雖然這些模型會(huì)記住特定的代碼片段，但它們不一定會(huì)保留許可證信息。因此，如果您使用其中一種模型，它會(huì)輸出一段代碼，而這段代碼顯然是從其他地方復(fù)制的，那么有什么責(zé)任呢？”
AI研究員安德魯·亨特（Andrew Hundt）曾多次遇到這種情況，他是佐治亞理工學(xué)院的博士后，去年秋天在約翰·霍普金斯大學(xué)完成了機(jī)器人強(qiáng)化學(xué)習(xí)博士學(xué)位。
第一次發(fā)生這種情況是在今年2月，加州伯克利的一位AI研究員（亨特不認(rèn)識(shí)）在一條推文中給他貼了標(biāo)簽，稱Copilot是OpenAI和GitHub之間的一個(gè)合作項(xiàng)目，允許研究人員使用大型語言模型生成代碼，他開始發(fā)布他的GitHub用戶名和有關(guān)AI和機(jī)器人的文本，聽起來很像亨特自己的待辦事項(xiàng)列表。
亨特說：“在美國的另一端，在一個(gè)與我工作密切相關(guān)的地區(qū)，我的個(gè)人信息突然出現(xiàn)在其他人的電腦上，這讓我有點(diǎn)驚訝?！?/span>
亨特說，這可能會(huì)帶來問題。不僅作者可能無法獲得正確的信任，而且代碼可能不會(huì)包含有關(guān)軟件許可和限制的信息。

陷入困境

忽視隱私可能意味著科技公司最終會(huì)遇到越來越強(qiáng)硬的科技監(jiān)管機(jī)構(gòu)的麻煩。
斯坦福大學(xué)的詹妮弗·金（Jennifer King）說，“這是公開的，我們不需要關(guān)心”的借口是站不住腳的。
美國聯(lián)邦貿(mào)易委員會(huì)（Federal Trade Commission）正在考慮有關(guān)公司如何收集和處理數(shù)據(jù)以及構(gòu)建算法的規(guī)則，并已強(qiáng)制公司刪除含有非法數(shù)據(jù)的模型。2022年3月，該機(jī)構(gòu)讓飲食公司W(wǎng)eight Watchers在非法收集兒童信息后，刪除其數(shù)據(jù)和算法。
金說：“如果這些公司被發(fā)現(xiàn)它們能夠真正地闖入系統(tǒng)并受到相關(guān)懲罰，之后僅僅是搞清楚如何將被包括的數(shù)據(jù)刪除。”“我不認(rèn)為我們的態(tài)度只能是‘我不知道，我們必須接受這種情況’?！?/span>
即使數(shù)據(jù)是從互聯(lián)網(wǎng)上獲取的，公司仍然需要遵守歐洲的數(shù)據(jù)保護(hù)法。“你不能僅僅因?yàn)閿?shù)據(jù)可用就重用任何數(shù)據(jù)，”法國國家信息實(shí)驗(yàn)室技術(shù)專家團(tuán)隊(duì)負(fù)責(zé)人費(fèi)利西安·瓦萊特（Félicien Vallet）說。
根據(jù)GDPR處罰從公共互聯(lián)網(wǎng)上抓取數(shù)據(jù)的科技公司是有先例的。面部識(shí)別公司Clearview AI已被眾多歐洲數(shù)據(jù)保護(hù)機(jī)構(gòu)下令停止將互聯(lián)網(wǎng)上公開的圖像重新用于構(gòu)建其面部數(shù)據(jù)庫。
“當(dāng)收集用于構(gòu)建語言模型或其他AI模型的數(shù)據(jù)時(shí)，您將面臨同樣的問題，必須確保這些數(shù)據(jù)的重用實(shí)際上是合法的，”Vallet補(bǔ)充道。

沒有速效****

有一些努力使機(jī)器學(xué)習(xí)領(lǐng)域更加注重隱私。在開發(fā)新的開放存取語言模型BLOOM期間，法國數(shù)據(jù)保護(hù)局與AI初創(chuàng)公司Hugging Face合作，提高對(duì)LLMs中數(shù)據(jù)保護(hù)風(fēng)險(xiǎn)的認(rèn)識(shí)?，敻覃愄亍っ浊袪枺∕argaret Mitchell）是一位AI研究人員，也是Hugging Face的倫理學(xué)家，她告訴我，她也在努力為LLMs中的隱私創(chuàng)建一個(gè)基準(zhǔn)。
一組從Hugging Face開發(fā)BLOOM的項(xiàng)目中分離出來的志愿者也正在制定一個(gè)適用于所有司法管轄區(qū)的人工智能隱私標(biāo)準(zhǔn)。
“我們?cè)噲D做的是使用一個(gè)框架，讓人們能夠做出良好的價(jià)值判斷，判斷那里的信息是個(gè)人的還是個(gè)人可識(shí)別的，是否真的需要存在，”共同領(lǐng)導(dǎo)該項(xiàng)目的MATR Ventures的風(fēng)險(xiǎn)合伙人赫斯·瓊斯（Hessie Jones）說。
麻省理工學(xué)院技術(shù)評(píng)論詢問了谷歌、Meta、OpenAI和Deepmind，他們都開發(fā)了最先進(jìn)的LLMs，并詢問了他們對(duì)LLMs和隱私的方法。所有公司都承認(rèn)，大型語言模型中的數(shù)據(jù)保護(hù)是一個(gè)持續(xù)存在的問題，沒有完美的解決方案來減輕危害，這些模型的風(fēng)險(xiǎn)和局限性尚未得到充分理解。
開發(fā)人員有一些工具，盡管不完善。
在2022年初發(fā)表的一篇論文中，特拉梅爾和他的合著者認(rèn)為，語言模型應(yīng)該根據(jù)明確為公眾使用而產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練，而不是從公開可用的數(shù)據(jù)中刪除。
私人數(shù)據(jù)通常分散在用于培訓(xùn)LLMs的數(shù)據(jù)集中，其中許多數(shù)據(jù)是從開放互聯(lián)網(wǎng)上獲取的。這些個(gè)人信息在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率越高，模型記憶它們的可能性就越大，關(guān)聯(lián)性就越強(qiáng)。谷歌和OpenAI等公司表示，他們?cè)噲D解決這一問題的一種方法是，在對(duì)模型進(jìn)行訓(xùn)練之前，刪除數(shù)據(jù)集中多次出現(xiàn)的信息。但當(dāng)您的數(shù)據(jù)集包含千兆字節(jié)或兆字節(jié)的數(shù)據(jù)時(shí)，這很困難，您必須區(qū)分不包含個(gè)人數(shù)據(jù)的文本（如美國獨(dú)立宣言）和某人的私人家庭地址。
谷歌負(fù)責(zé)人工智能產(chǎn)品的負(fù)責(zé)人圖爾西·多希（Tulsee Doshi）表示，谷歌使用人工評(píng)分員對(duì)個(gè)人身份信息進(jìn)行不安全評(píng)分，這有助于訓(xùn)練公司的LLM LaMDA，以避免重復(fù)使用。
OpenAI的一位發(fā)言人表示，該公司“已采取措施，從培訓(xùn)數(shù)據(jù)中移除聚集人員信息的已知來源，并開發(fā)了技術(shù)，以降低模型產(chǎn)生個(gè)人信息的可能性?！?/span>
Meta的AI研究員蘇珊·張（Susan Zhang）表示，用于訓(xùn)練OPT-175B的數(shù)據(jù)庫經(jīng)過了內(nèi)部隱私審查。
但是，特拉梅爾說：“即使你訓(xùn)練的模型具有我們今天能想到的最嚴(yán)格的隱私保障，你也不會(huì)真正確保任何東西?！?/span>
原文標(biāo)題：What does GPT-3“know”about me?原文鏈接：https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

負(fù)離子發(fā)生器相關(guān)文章:負(fù)離子發(fā)生器原理
塵埃粒子計(jì)數(shù)器相關(guān)文章:塵埃粒子計(jì)數(shù)器原理

博客專欄

GPT-3“知道”我什么？

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

GPT-3“知道”我什么？

相關(guān)推薦

技術(shù)專區(qū)

GPT-3“知道”我什么？