博客專欄

EEPW首頁 > 博客 > 經(jīng)驗分享:如何在自己的創(chuàng)業(yè)中,用上GPT-3等AI大模型

經(jīng)驗分享:如何在自己的創(chuàng)業(yè)中,用上GPT-3等AI大模型

發(fā)布人:數(shù)據(jù)派THU 時間:2022-03-13 來源:工程師 發(fā)布文章

以下文章來源于數(shù)據(jù)實戰(zhàn)派 ,作者Elliot Turner

隨著機器學(xué)習(xí)技術(shù)的逐漸成熟并從學(xué)術(shù)走向工業(yè),支持大規(guī)模機器學(xué)習(xí)所需的方法和基礎(chǔ)設(shè)備也在不斷發(fā)展。利用這些進(jìn)步對初創(chuàng)公司來說機遇與風(fēng)險并存——幾乎所有初創(chuàng)公司,都以各種方式利用機器學(xué)習(xí)來競爭各自的市場。


在這之前差不多經(jīng)歷了 9 年多的時間,當(dāng)時的深度學(xué)習(xí)革命起源于一個 2012 年起,一年一度的競賽,即 AlexNet 的 ImageNet LSVRC 競賽(由研究社群舉辦的計算機視覺競賽)。在一次比拼中,一個三人小組(Alex Krizhevsky、Illya Sutskever 和 Geoffrey Hinton)使用了一種稱為卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)來理解照片的內(nèi)容。他們毫無懸念地贏得了比賽——以相當(dāng)大的優(yōu)勢擊敗了所有其他人——并且他們使用的系統(tǒng)僅僅是在 700 美元的游戲顯卡上訓(xùn)練出來的。


至此機器學(xué)習(xí)的世界永遠(yuǎn)地改變了。


一年之內(nèi),初創(chuàng)公司開始涌現(xiàn)以復(fù)制 AlexNet 的成功。我之前的公司 AlchemyAPI(2015 年被 IBM 收購)早在 2013 年就使用我們的 AlchemyVision 計算機視覺 API 發(fā)布了這項工作的第一個商業(yè)版本。大約在這個時候成立的其他初創(chuàng)公司還包括 DeepMind(被谷歌收購)、MetaMind(被 Salesforce 收購)和 Clarifai 等。學(xué)術(shù)界也發(fā)生了巨大變化,許多專家迅速從對人工智能的懷疑轉(zhuǎn)變?yōu)槿娜獾負(fù)肀疃葘W(xué)習(xí)。


快進(jìn)到 2022 年:神經(jīng)網(wǎng)絡(luò)已經(jīng)改變了我們?nèi)粘J褂玫能浖到y(tǒng)中機器智能的方方面面,從識別我們的語音,到推薦我們的新聞?wù)械膬?nèi)容(且不論好壞)。
現(xiàn)在的系統(tǒng)仍然使用神經(jīng)網(wǎng)絡(luò)——但規(guī)模大不相同。最近用于理解和生成人類語言的系統(tǒng),例如 OpenAI 的 GPT-3,在超級龐大的數(shù)據(jù)上進(jìn)行了訓(xùn)練:數(shù)千塊 GPU(每塊至少花費一千美元)被編織成一個由高速網(wǎng)絡(luò)互連的數(shù)據(jù)存儲基礎(chǔ)設(shè)施組成的復(fù)雜結(jié)構(gòu)。雖然 2012 年最先進(jìn)的系統(tǒng)可以在 700 美元的游戲顯卡上進(jìn)行訓(xùn)練,但今天的最先進(jìn)系統(tǒng)——通常被稱為預(yù)訓(xùn)練模型——可能需要用數(shù)千萬美元的計算設(shè)備來訓(xùn)練。
這些大規(guī)模、高成本的預(yù)訓(xùn)練模型的出現(xiàn)為初創(chuàng)公司和其他希望在人工智能或機器學(xué)習(xí)方面進(jìn)行創(chuàng)新的人帶來了機遇、風(fēng)險和限制。盡管它們可能無法在研究的前沿與谷歌、Facebook 或 OpenAI 競爭,但小微企業(yè)可以利用這些巨頭的工作,當(dāng)然包括預(yù)訓(xùn)練模型,來啟動他們自己的基于機器學(xué)習(xí)的應(yīng)用程序的開發(fā)。


預(yù)訓(xùn)練網(wǎng)絡(luò)為小型團(tuán)隊提供支持
AlexNet 等神經(jīng)網(wǎng)絡(luò)最初是針對每項任務(wù)從頭開始訓(xùn)練的——當(dāng)網(wǎng)絡(luò)需要幾周時間在單塊游戲顯卡上進(jìn)行訓(xùn)練時,這是可行的,但隨著網(wǎng)絡(luò)規(guī)模、計算資源和訓(xùn)練數(shù)據(jù)量開始按需求擴展時,難度要大得多。這導(dǎo)致了一種稱為預(yù)訓(xùn)練的方法的普及,該方法首先使用大量計算資源在大型通用數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后使用更少量的資源,比如數(shù)據(jù)和計算資源,對手頭的任務(wù)進(jìn)行微調(diào)。
近年來,隨著機器學(xué)習(xí)在許多領(lǐng)域的工業(yè)化和落地(例如語言或語音處理),并且可用于訓(xùn)練的數(shù)據(jù)量急劇增加,預(yù)訓(xùn)練網(wǎng)絡(luò)的使用量也呈爆炸式增長。例如,使用預(yù)先訓(xùn)練的網(wǎng)絡(luò)可以讓初創(chuàng)公司使用少得多的資源來(相比于從頭開始訓(xùn)練所需的數(shù)據(jù)和計算資源)研發(fā)產(chǎn)品。這種方法在學(xué)術(shù)界也越來越流行,研究人員可以快速微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò)以完成新任務(wù),然后發(fā)表成果。
對于某些任務(wù)領(lǐng)域——包括理解或生成書面文本、識別照片或視頻的內(nèi)容以及音頻處理——隨著預(yù)訓(xùn)練模型的出現(xiàn)而不斷發(fā)展,比如 BERT、GPT、DALL -E、CLIP 還有一些其他的模型。這些模型在大型通用數(shù)據(jù)集(通常是數(shù)十億個訓(xùn)練示例的數(shù)量級)上進(jìn)行了預(yù)訓(xùn)練,并由資金充足的 AI 實驗室(例如谷歌、微軟和 OpenAI 的實驗室)以開源形式發(fā)布。
商業(yè)化機器學(xué)習(xí)應(yīng)用的創(chuàng)新速率與這些預(yù)訓(xùn)練模型的公益化效果不容小覷。對于那些沒有配備超級計算機的現(xiàn)場工作人員來說,它們一直是靈丹妙****。它們使初創(chuàng)公司、研究人員和其他人能夠快速掌握最新的機器學(xué)習(xí)方法,而無需花費時間和資源從頭開始訓(xùn)練這些模型。
預(yù)訓(xùn)練模型的風(fēng)險:規(guī)模、成本和外包創(chuàng)新
然而,在預(yù)訓(xùn)練的基礎(chǔ)模型領(lǐng)域,并不是所有的模型都面對著一片坦途,而且隨著它們的應(yīng)用越來越多,風(fēng)險也接踵而來。
與預(yù)訓(xùn)練模型相關(guān)的風(fēng)險之一便是其規(guī)模的不斷擴大。谷歌的 T5-11 b(于 2019 年開源)等神經(jīng)網(wǎng)絡(luò)已經(jīng)需要一組昂貴的 GPU 來簡單地加載和進(jìn)行預(yù)測。而微調(diào)這些系統(tǒng)需要更多的資源。由谷歌、微軟、OpenAI 在 2021-2022 年間創(chuàng)建的最新模型通常非常龐大,以至于這些公司沒有將它們作為開源發(fā)布——它們現(xiàn)在需要數(shù)千萬美元來創(chuàng)建,并且越來越多地被視為重要的 IP 投資,即使對于這些巨頭來說也是如此。
然而,即便這些最新模型是開源的,僅僅加載這些網(wǎng)絡(luò)以進(jìn)行預(yù)測(機器學(xué)習(xí)用語中的“推理”)所涉及的資源需求量,也比許多初創(chuàng)公司和學(xué)術(shù)研究人員可以運用多。例如,OpenAI 的 GPT-3 需要大量 GPU 才能加載。即使使用 Amazon Web Services 等現(xiàn)代云端計算,也需要將數(shù)十臺 Amazon 最昂貴的 GPU 機器配置到高性能計算集群中。
對于那些使用預(yù)訓(xùn)練模型的人來說,數(shù)據(jù)集對齊也是一個挑戰(zhàn)。對大型通用數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練并不能保證網(wǎng)絡(luò)能夠?qū)S袛?shù)據(jù)執(zhí)行新任務(wù)。網(wǎng)絡(luò)可能缺乏上下文信息或存在基于其預(yù)訓(xùn)練的偏見,以至于即使進(jìn)行微調(diào)也可能無法輕易解決問題。
例如,自然語言處理領(lǐng)域的流行預(yù)訓(xùn)練模型 GPT-2 最初于 2019 年初宣布,因此模型是對在該日期或之前收集的數(shù)據(jù)進(jìn)行了訓(xùn)練。想想自 2019 年以來發(fā)生的一切——疫情,有任何涉及嗎?最初的 GPT-2 模型肯定會知道什么是流行病,但是缺乏圍繞 COVID-19 及其近年來出現(xiàn)的變異株的詳細(xì)信息。
為了說明這一點,這里是 GPT-2 試圖完成句子“COVID-19 是……”:GPT-2 (2019):“COVID-19 是一種高容量 LED 屏幕,可顯示有關(guān)電池大小和狀態(tài)的信息?!?/span>


相比之下,2021 年發(fā)布的開源語言模型 GPT-J 完成的句子如下:


GPT-J (2021):“COVID-19 是一種新型冠狀病毒,主要影響呼吸系統(tǒng),會導(dǎo)致一種具有多種臨床表現(xiàn)的疾病。”


相當(dāng)戲劇性的差異對吧?數(shù)據(jù)集對齊和訓(xùn)練數(shù)據(jù)的時效性可能非常重要,具體取決于用例。任何在機器學(xué)習(xí)工作中利用預(yù)訓(xùn)練模型的初創(chuàng)公司都應(yīng)該密切關(guān)注這些類型的問題。


云 API 更易得,但外包不是免費的


OpenAI、微軟和英偉達(dá)等公司已經(jīng)看到了計算資源需求規(guī)模增加所帶來的挑戰(zhàn),并正在通過云 API 做出措施,這些 API 能夠在其托管的基礎(chǔ)設(shè)施上運行推理和微調(diào)大型模型。
當(dāng)然,每個主要的云提供商現(xiàn)在都提供一套機器學(xué)習(xí)服務(wù),在某些情況下,還提供專為這些工作負(fù)載設(shè)計的定制處理器。這可以通過將計算和基礎(chǔ)設(shè)施挑戰(zhàn)轉(zhuǎn)移給更大的公司,為初創(chuàng)公司、研究人員甚至個人愛好者提供有限的應(yīng)對措施。
然而,這種方法有其自身的風(fēng)險。無法托管您自己的模型意味著依賴集中式的計算集群進(jìn)行訓(xùn)練和推理。這可能會在構(gòu)建預(yù)備投入生產(chǎn)的機器學(xué)習(xí)應(yīng)用程序時產(chǎn)生外部風(fēng)險:網(wǎng)絡(luò)中斷、API 的并發(fā)性故障或速率限制,或者托管公司的政策變化可能會導(dǎo)致的重大運營影響。此外,當(dāng)敏感的標(biāo)記數(shù)據(jù)集(其中一些可能被 HIPAA 等法規(guī)涵蓋)必須發(fā)送給云提供商進(jìn)行微調(diào)或推理時, IP 泄漏的可能性可能會讓一些人感到不舒服。
從底線的角度來看,調(diào)用這些 API 對 COGS(銷售成本)的影響,也可能是那些使用云計算來滿足其機器學(xué)習(xí)需求的人關(guān)注的問題。使用價格因供應(yīng)商而異,更不用說 API 調(diào)用、數(shù)據(jù)存儲和云實例的成本將隨著您的使用而增加。如今,許多使用云 API 進(jìn)行機器學(xué)習(xí)的公司最終可能會嘗試過渡到自托管或自訓(xùn)練模型,以更好地控制其機器學(xué)習(xí)途徑并消除外部風(fēng)險和成本。
使用托管和預(yù)訓(xùn)練模型的機會和風(fēng)險導(dǎo)致許多公司在“試驗階段”利用云 API 來啟動產(chǎn)品開發(fā)。這正是一家公司試圖尋找適合其產(chǎn)品的市場的時候。利用云 API 可以讓公司快速啟動并大規(guī)模運行其產(chǎn)品,而無需投資于昂貴的基礎(chǔ)計算設(shè)施、模型訓(xùn)練或數(shù)據(jù)收集。來自谷歌、IBM、微軟和 OpenAI 等提供商的云機器學(xué)習(xí)服務(wù)和托管的預(yù)訓(xùn)練模型現(xiàn)在正為數(shù)千家初創(chuàng)公司和學(xué)術(shù)研究項目提供支持。
一旦公司確認(rèn)其產(chǎn)品與市場契合,它通常會過渡到自托管或自訓(xùn)練模型,以獲得對數(shù)據(jù)、流程和知識產(chǎn)權(quán)的更多控制。這種轉(zhuǎn)變可能很困難,因為公司需要能夠擴展其基礎(chǔ)架構(gòu)以滿足模型的需求,還要進(jìn)行管理與數(shù)據(jù)收集,還伴隨著注釋和存儲相關(guān)的成本上升。為了實現(xiàn)這一轉(zhuǎn)變,公司正籌集越來越多的投資者資金。


我最近的創(chuàng)業(yè)公司 Hyperia 最近就進(jìn)行了這樣的轉(zhuǎn)變。早期,我們在努力了解業(yè)務(wù)會議和客戶語音對話的內(nèi)容時嘗試了云 API。但最終我們決定從頭掌控我們自己的事務(wù),啟動了大規(guī)模的數(shù)據(jù)收集和模型訓(xùn)練工作,以構(gòu)建我們自己的專有語音和語言引擎。對于許多商業(yè)模式來說,如果要實現(xiàn)積極的單位經(jīng)濟化和市場差異化,這種演變是不可避免的。


具備戰(zhàn)略性并密切關(guān)注大型人工智能實驗室


預(yù)訓(xùn)練模型是機器學(xué)習(xí)中最新的顛覆性趨勢之一,但不會是最后一個。


在公司繼續(xù)建造更大的機器學(xué)習(xí)超級計算集群(Facebook 最新的計算集群包括超過 16,000 塊 GPU)的同時,研究人員正忙于開發(fā)新技術(shù)以降低訓(xùn)練和托管最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的計算成本。谷歌最新的 LaMDA 模型利用多項創(chuàng)新來比 GPT-3 更有效地訓(xùn)練,學(xué)術(shù)界正在迅速研發(fā)模型蒸餾和嘈雜學(xué)生訓(xùn)練等技術(shù)以減小模型大小。
這樣或那樣的創(chuàng)新成果意味著初創(chuàng)公司可以繼續(xù)創(chuàng)新——但隨著環(huán)境的不斷變化,保持警惕是很重要的。值得警惕的事情包括:


  • 云 API 絕對可以加速公司的產(chǎn)品與市場契合之路,但往往會帶來長期的問題。制定戰(zhàn)略退出計劃非常重要,這樣這些 API 就不會控制您產(chǎn)品的命運。
  • 預(yù)訓(xùn)練模型可以極大地加快您的機器學(xué)習(xí)工作并降低整體訓(xùn)練和數(shù)據(jù)收集成本,但了解這些系統(tǒng)的局限性(例如,訓(xùn)練數(shù)據(jù)的時效性)很重要。
  • 密切關(guān)注巨頭們的 AI 實驗室(谷歌、微軟、IBM、百度、Facebook、OpenAI 等)的最新成果。機器學(xué)習(xí)正在以極快的速度迭代更新,每個月都會發(fā)布新技術(shù)、模型和數(shù)據(jù)集。這些版本通常會在意想不到的時間發(fā)布,如果您能夠快速適應(yīng),這將對您公司的機器學(xué)習(xí)工作產(chǎn)生巨大影響。


最終,機器學(xué)習(xí)的未來及其對初創(chuàng)公司和科技公司的影響是不確定的,但有一件事是明確的:了解可用資源并做出明智決策的公司將比那些只尋求 AI 輔助的公司更容易取得成功。




*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm是什么


pwm相關(guān)文章:pwm原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉