AI 引發(fā)了一場(chǎng)關(guān)于網(wǎng)絡(luò)爬蟲的戰(zhàn)斗

—— 由于網(wǎng)站限制爬蟲機(jī)器人，訓(xùn)練數(shù)據(jù)可能最終會(huì)供不應(yīng)求

作者：Eliza Strickland 時(shí)間：2024-09-06 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

大多數(shù)人認(rèn)為生成式 AI 會(huì)越來越好;畢竟，這是迄今為止的趨勢(shì)。它可能會(huì)這樣做。但有些人沒有意識(shí)到的是，生成式 AI 模型的好壞取決于它們所訓(xùn)練的巨大數(shù)據(jù)集，而這些數(shù)據(jù)集并不是根據(jù) OpenAI 和 Anthropic 等領(lǐng)先 AI 公司擁有的專有數(shù)據(jù)構(gòu)建的。相反，它們由我們所有人創(chuàng)建的公共數(shù)據(jù)組成，包括任何曾經(jīng)寫過博客文章、發(fā)布過視頻、在 Reddit 帖子上發(fā)表過評(píng)論或基本上在網(wǎng)上做過任何其他事情的人。

本文引用地址：http://2s4d.com/article/202409/462744.htm

AI 研究人員志愿者團(tuán)體 Data Provenance Initiative 的一份新報(bào)告揭示了所有這些數(shù)據(jù)的情況。這份題為《危機(jī)中的同意：AI Data Commons 的快速衰落》的報(bào)告指出，大量感到受到生成式 AI 威脅的組織正在采取措施隔離其數(shù)據(jù)。IEEE Spectrum 與數(shù)據(jù)來源計(jì)劃（Data Provenance Initiative）的首席研究員 Shayne Longpre 就該報(bào)告及其對(duì) AI 公司的影響進(jìn)行了交談。

Shayne Longpre 發(fā)表在：

? 網(wǎng)站如何阻止網(wǎng)絡(luò)爬蟲，以及為什么

? 消失的數(shù)據(jù)及其對(duì) AI 公司的意義

? 合成數(shù)據(jù)、峰值數(shù)據(jù)以及接下來會(huì)發(fā)生什么

網(wǎng)站用來阻止網(wǎng)絡(luò)爬蟲的技術(shù)并不新鮮 — 機(jī)器人排除協(xié)議于 1995 年推出。您能否解釋一下它是什么，以及為什么它在生成式 AI 時(shí)代突然變得如此重要？

謝恩·朗普雷： Robots.txt 是一個(gè)機(jī)器可讀的文件，爬蟲（瀏覽 Web 并記錄所見內(nèi)容的機(jī)器人）使用它來確定是否爬取網(wǎng)站的某些部分。在網(wǎng)站主要使用它來指導(dǎo) Web 搜索的時(shí)代，它成為事實(shí)上的標(biāo)準(zhǔn)。所以想想 Bing 或 Google 搜索;他們希望記錄此信息，以便改善用戶在 Web 上導(dǎo)航的體驗(yàn)。這是一種非常共生的關(guān)系，因?yàn)?Web 搜索是通過向網(wǎng)站發(fā)送流量來運(yùn)作的，而網(wǎng)站希望如此。一般來說，大多數(shù)網(wǎng)站都能很好地與大多數(shù)爬蟲配合使用。

接下來，讓我談?wù)剬?duì)理解這一點(diǎn)很重要的一系列主張。通用 AI 模型及其令人印象深刻的功能依賴于用于訓(xùn)練它們的數(shù)據(jù)和計(jì)算規(guī)模。規(guī)模和數(shù)據(jù)真的很重要，很少有來源像 Web 那樣提供公共規(guī)模。因此，許多基礎(chǔ)模型都是在 Web 爬取的 [數(shù)據(jù)集] 上訓(xùn)練的。在這些流行和重要的數(shù)據(jù)集下，基本上只是網(wǎng)站和用于收集、打包和處理這些數(shù)據(jù)的爬蟲基礎(chǔ)設(shè)施。我們的研究不僅關(guān)注數(shù)據(jù)集，還關(guān)注來自底層網(wǎng)站的偏好信號(hào)。它是數(shù)據(jù)本身的供應(yīng)鏈。

但去年，許多網(wǎng)站開始使用 robots.txt 來限制機(jī)器人，尤其是通過廣告和付費(fèi)墻獲利的網(wǎng)站——想想新聞和藝術(shù)家。他們特別害怕，也許這是正確的，因?yàn)?a class="contentlabel" href="http://2s4d.com/news/listbylabel/label/生成式 AI">生成式 AI 可能會(huì)影響他們的生計(jì)。因此，他們正在采取措施保護(hù)自己的數(shù)據(jù)。

當(dāng)一個(gè)網(wǎng)站設(shè)置robots.txt限制時(shí)，就像豎起了禁止擅自進(jìn)入的標(biāo)志，對(duì)吧？它不可執(zhí)行。您必須相信爬蟲會(huì)尊重它。

Longpre： 這樣做的悲劇在于，robots.txt 是機(jī)器可讀的，但似乎沒有法律效力。而服務(wù)條款可能在法律上具有可執(zhí)行性，但不是機(jī)器可讀的。在服務(wù)條款中，他們可以用自然語言闡明對(duì)數(shù)據(jù)使用的偏好。所以他們可以說，“你可以使用這些數(shù)據(jù)，但不能用于商業(yè)用途。但是在robots.txt中，您必須單獨(dú)指定爬蟲，然后說出您允許或不允許它們的網(wǎng)站哪些部分。這給網(wǎng)站帶來了不必要的負(fù)擔(dān)，需要在數(shù)以千計(jì)的不同爬蟲中弄清楚哪些對(duì)應(yīng)于他們想要的用途，哪些對(duì)應(yīng)于他們不喜歡的用途。

我們是否知道爬蟲通常是否遵守 robots.txt 中的限制？

Longpre：許多大公司都有明確說明其規(guī)則或程序的文件。例如，在 Anthropic 的案例中，他們確實(shí)表示他們尊重 ClaudeBot 的robots.txt。然而，這些公司中的許多公司最近也出現(xiàn)在新聞中，因?yàn)樗鼈儽恢肛?zé)不尊重robots.txt和抓取網(wǎng)站。從外部來看，目前尚不清楚為什么人工智能公司所說的和他們被指控做的事情之間存在差異。但是，許多使用爬蟲的親社會(huì)團(tuán)體——小型創(chuàng)業(yè)公司、學(xué)者、非營利組織、記者——他們往往尊重robots.txt。他們不是這些限制的預(yù)期目標(biāo)，但他們會(huì)被這些限制阻止。

在報(bào)告中，您查看了通常用于訓(xùn)練生成式 AI 系統(tǒng)的三個(gè)訓(xùn)練數(shù)據(jù)集，這些數(shù)據(jù)集都是根據(jù)過去幾年的網(wǎng)絡(luò)爬蟲創(chuàng)建的。您發(fā)現(xiàn)，從 2023 年到 2024 年，此后受到限制的已爬網(wǎng)域數(shù)量大幅增加。您能談?wù)勥@些發(fā)現(xiàn)嗎？

Longpre： 我們發(fā)現(xiàn)，如果你看一下特定的數(shù)據(jù)集，讓我們以 2019 年創(chuàng)建的非常流行的 C4 為例——在不到一年的時(shí)間里，如果你尊重或遵守底層網(wǎng)站的偏好，它大約 5% 的數(shù)據(jù)已被撤銷。現(xiàn)在 5% 聽起來并不多，但當(dāng)您意識(shí)到這部分?jǐn)?shù)據(jù)主要對(duì)應(yīng)于最高質(zhì)量、維護(hù)最完善和最新的數(shù)據(jù)時(shí)。當(dāng)我們查看此 C4 數(shù)據(jù)集中的前 2,000 個(gè)網(wǎng)站（這些網(wǎng)站是按大小計(jì)算的前 2,000 個(gè)網(wǎng)站，它們大多是新聞、大型學(xué)術(shù)網(wǎng)站、社交媒體和精心策劃的高質(zhì)量網(wǎng)站）時(shí)，前 2,000 個(gè)網(wǎng)站中 25% 的數(shù)據(jù)已被撤銷。這意味著，尊重robots.txt模型的訓(xùn)練數(shù)據(jù)分發(fā)正在迅速從高質(zhì)量的新聞、學(xué)術(shù)網(wǎng)站、論壇和社交媒體轉(zhuǎn)向更多的組織和個(gè)人網(wǎng)站以及電子商務(wù)和博客。

如果我們要求某個(gè)未來版本的 ChatGPT 或 Perplexity 來回答復(fù)雜的問題，并且它從個(gè)人博客和購物網(wǎng)站獲取信息，這似乎可能是一個(gè)問題。

Longpre： 完全。很難衡量這將如何影響模型，但我們懷疑尊重robots.txt的模型的性能與已經(jīng)保護(hù)這些數(shù)據(jù)并愿意對(duì)其進(jìn)行訓(xùn)練的模型的性能之間存在差距。

但較舊的數(shù)據(jù)集仍然完好無損。AI 公司可以只使用舊數(shù)據(jù)集嗎？這樣做的缺點(diǎn)是什么？

Longpre：嗯，持續(xù)的數(shù)據(jù)新鮮度真的很重要。目前也不清楚robots.txt是否可以追溯適用。出版商可能會(huì)爭辯說他們有。因此，這取決于您對(duì)訴訟的胃口，或者您也認(rèn)為趨勢(shì)可能會(huì)走向何方，尤其是在美國，圍繞合理使用數(shù)據(jù)的訴訟正在進(jìn)行中。最好的例子顯然是《紐約時(shí)報(bào)》對(duì) OpenAI 和 Microsoft 的反對(duì)，但現(xiàn)在有很多變體。關(guān)于它會(huì)走向何方，存在很多不確定性。

這份報(bào)告被稱為《危機(jī)中的同意》（Consent in Crisis）。您為什么認(rèn)為這是一場(chǎng)危機(jī)？

Longpre：我認(rèn)為這對(duì)數(shù)據(jù)創(chuàng)建者來說是一場(chǎng)危機(jī)，因?yàn)楹茈y用現(xiàn)有協(xié)議來表達(dá)他們想要的東西。此外，對(duì)于一些非商業(yè)性甚至可能與 AI 無關(guān)的開發(fā)人員來說，學(xué)者和研究人員發(fā)現(xiàn)這些數(shù)據(jù)越來越難訪問。我認(rèn)為這也是一場(chǎng)危機(jī)，因?yàn)樗靵y了?；A(chǔ)設(shè)施的設(shè)計(jì)并不是為了同時(shí)容納所有這些不同的使用案例。由于這些巨大的行業(yè)發(fā)生碰撞，它最終成為一個(gè)問題，生成式 AI 針對(duì)新聞創(chuàng)作者和其他人。

如果這種情況持續(xù)下去，越來越多的數(shù)據(jù)受到限制，AI 公司該怎么辦？為了繼續(xù)訓(xùn)練巨大的模型，他們的行動(dòng)會(huì)是什么？

Longpre： 大公司將直接許可它。如果大量這些數(shù)據(jù)被取消抵押品贖回權(quán)或難以收集，對(duì)于一些大公司來說，這可能不是一個(gè)壞結(jié)果，它只會(huì)為進(jìn)入創(chuàng)造更大的資本要求。我認(rèn)為大公司將加大對(duì)數(shù)據(jù)收集管道的投資，并持續(xù)訪問用戶生成的寶貴數(shù)據(jù)源，例如 YouTube、GitHub 和 Reddit。獲得對(duì)這些網(wǎng)站的獨(dú)家訪問權(quán)可能是一種明智的市場(chǎng)游戲，但從反壟斷的角度來看，這是一個(gè)有問題的游戲。我特別擔(dān)心由此可能產(chǎn)生的獨(dú)家數(shù)據(jù)獲取關(guān)系。

您認(rèn)為合成數(shù)據(jù)可以填補(bǔ)空白嗎？

Longpre： 大公司已經(jīng)在大量使用合成數(shù)據(jù)。合成數(shù)據(jù)既有恐懼，也有機(jī)遇。一方面，有一系列工作證明了模型崩潰的可能性，即由于對(duì)不良合成數(shù)據(jù)進(jìn)行訓(xùn)練而導(dǎo)致的模型退化，隨著越來越多的生成機(jī)器人被釋放，這些數(shù)據(jù)可能會(huì)更頻繁地出現(xiàn)在網(wǎng)絡(luò)上。但是，我認(rèn)為大型模型不太可能受到太大阻礙，因?yàn)樗鼈兙哂懈哔|(zhì)量的過濾器，因此質(zhì)量差或重復(fù)的內(nèi)容可以被抽走。合成數(shù)據(jù)的機(jī)會(huì)在于，它在實(shí)驗(yàn)室環(huán)境中創(chuàng)建得非常高質(zhì)量，并且它特別針對(duì)未開發(fā)的領(lǐng)域。

您是否相信我們可能處于峰值數(shù)據(jù)的觀點(diǎn)？或者你覺得這是一個(gè)夸大其詞的擔(dān)憂？

Longpre： 那里有很多未開發(fā)的數(shù)據(jù)。但有趣的是，很多都隱藏在 PDF 后面，因此您需要進(jìn)行 OCR [光學(xué)字符識(shí)別]。許多數(shù)據(jù)被鎖定在政府、專有渠道、非結(jié)構(gòu)化格式或 PDF 等難以提取的格式中。我認(rèn)為在弄清楚如何提取這些數(shù)據(jù)方面將投入更多資金。我確實(shí)認(rèn)為，就容易獲得的數(shù)據(jù)而言，許多公司開始碰壁并轉(zhuǎn)向合成數(shù)據(jù)。

這里的趨勢(shì)線是什么？您是否希望在未來幾年看到更多網(wǎng)站設(shè)置robots.txt限制？

Longpre： 我們預(yù)計(jì)，無論是在robots.txt方面還是在服務(wù)方面，限制都會(huì)增加。這些趨勢(shì)線從我們的工作中非常清晰，但它們可能會(huì)受到外部因素的影響，例如立法、公司本身改變政策、訴訟結(jié)果以及來自作家協(xié)會(huì)的社區(qū)壓力等等。我預(yù)計(jì)，數(shù)據(jù)商品化的加劇將導(dǎo)致該領(lǐng)域的更多戰(zhàn)場(chǎng)。

您希望看到行業(yè)內(nèi)的標(biāo)準(zhǔn)化與使網(wǎng)站更容易表達(dá)有關(guān)抓取的偏好方面發(fā)生什么？

Longpre： 在 Data Province Initiative，我們絕對(duì)希望出現(xiàn)并采用新標(biāo)準(zhǔn)，使創(chuàng)作者能夠以更精細(xì)的方式表達(dá)他們對(duì)數(shù)據(jù)使用的偏好。這將使他們的負(fù)擔(dān)減輕得多。我認(rèn)為這是不費(fèi)吹灰之力的雙贏。但目前尚不清楚誰的工作是制定或執(zhí)行這些標(biāo)準(zhǔn)。如果 [AI] 公司自己能夠得出這個(gè)結(jié)論并付諸實(shí)踐，那就太神奇了。但是，標(biāo)準(zhǔn)的設(shè)計(jì)者幾乎不可避免地會(huì)對(duì)自己的使用產(chǎn)生一些偏見，特別是如果它是一個(gè)公司實(shí)體。

此外，并非所有情況下都不應(yīng)尊重偏好。例如，我不認(rèn)為從事親社會(huì)研究的學(xué)者或記者必須被取消贖回權(quán)，不能使用已經(jīng)公開的機(jī)器訪問任何人都可以自己訪問的網(wǎng)站中的數(shù)據(jù)。并非所有數(shù)據(jù)都是平等的，也不是所有用途都是平等的。

新聞中心

AI 引發(fā)了一場(chǎng)關(guān)于網(wǎng)絡(luò)爬蟲的戰(zhàn)斗

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)