無需「域外」文本，微軟：NLP就應(yīng)該針對性預(yù)訓(xùn)練

作者：時間：2020-08-10 來源：51cto

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域訓(xùn)練NLP模型，除了特定數(shù)據(jù)集，「域外」文本也被認(rèn)為是有用的。但最近，微軟的研究人員「大呼」：我不這么覺得！

本文引用地址：http://2s4d.com/article/202008/416905.htm

什么是預(yù)訓(xùn)練？這是一個拷問人工智能「門外漢」的靈魂問題。生而為人，我們不需要一切從零開始學(xué)習(xí)。但是，我們會「以舊學(xué)新」，用過去所學(xué)的舊知識，來理解新知識和處理各種新任務(wù)。在人工智能中，預(yù)訓(xùn)練就是模仿人類這個過程。

預(yù)訓(xùn)練（pre-training）這個詞經(jīng)常在論文中見到，指的是用一個任務(wù)去訓(xùn)練一個模型，幫助它形成可以在其他任務(wù)中使用的參數(shù)。

用已學(xué)習(xí)任務(wù)的模型參數(shù)初始化新任務(wù)的模型參數(shù)。通過這種方式，舊的知識可以幫助新模型從舊的經(jīng)驗中成功地執(zhí)行新任務(wù)，而不是從零開始。

以前的研究已經(jīng)表明，在像生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域，當(dāng)訓(xùn)練一個NLP模型時，特定領(lǐng)域的數(shù)據(jù)集可以提高準(zhǔn)確性。不過，還有一個普遍的認(rèn)識是，「域外」文本也有用。但是！微軟研究人員對這一假設(shè)提出了質(zhì)疑。

近日，微軟研究人員提出一種人工智能技術(shù)，針對生物醫(yī)學(xué)NLP的領(lǐng)域特定語言模型預(yù)訓(xùn)練。并自信地說，通過從公開的數(shù)據(jù)集中編譯一個「全面的」生物醫(yī)學(xué)NLP基準(zhǔn)，在包括命名實體識別、基于證據(jù)的醫(yī)學(xué)信息提取、文檔分類等任務(wù)上取得了最先進(jìn)的成果。

他們認(rèn)為，「混合領(lǐng)域」預(yù)訓(xùn)練？不就是遷移學(xué)習(xí)的另一種形式嗎？源領(lǐng)域是一般文本(如新聞)，目標(biāo)領(lǐng)域是專門文本(如生物醫(yī)學(xué)論文)。

在此基礎(chǔ)上，針對特定領(lǐng)域的生物醫(yī)學(xué)NLP模型的預(yù)訓(xùn)練總是優(yōu)于通用語言模型的預(yù)訓(xùn)練，說明「混合領(lǐng)域」預(yù)訓(xùn)練并不完美。

神經(jīng)語言模型預(yù)訓(xùn)練的兩種范式。「混合領(lǐng)域」預(yù)訓(xùn)練（上）；只使用域內(nèi)文本預(yù)訓(xùn)練（下）

如此自信，研究人員是有證據(jù)的。他們通過對生物醫(yī)學(xué)NLP應(yīng)用的影響，比較了訓(xùn)練前的建模和特定任務(wù)的微調(diào)。

第一步，他們創(chuàng)建了一個名為生物醫(yī)學(xué)語言理解和推理基準(zhǔn)(BLURB)的基準(zhǔn)，該基準(zhǔn)側(cè)重于PubMed（一個生物醫(yī)學(xué)相關(guān)的數(shù)據(jù)庫）提供的出版物，涵蓋了諸如關(guān)系提取、句子相似度和問題回答等任務(wù)，以及諸如是/否問題回答等分類任務(wù)。為了計算總結(jié)性分?jǐn)?shù)，BLURB中的語料庫按任務(wù)類型分組，并分別打分,之后計算所有的平均值。

為了評估，他們又在最新的PubMed文檔中生成了一個詞匯表并訓(xùn)練了一個模型：1400萬篇摘要和32億個單詞，總計21GB。在一臺擁有16個V100顯卡的Nvidia DGX-2機器上，培訓(xùn)了大約5天時間。這個模型具有62,500步長和批量大小，可與以前生物醫(yī)學(xué)預(yù)訓(xùn)練實驗中使用的計算量相媲美。

又一個自信，研究人員說他們的模型——PubMedBERT，是建立在谷歌的BERT之上。

那個牛掰掰的BERT？Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領(lǐng)域最具有突破性的一項技術(shù)。

但有趣的是，將PubMed的全文添加到預(yù)訓(xùn)練文本(168億字)中會讓性能略有下降，直到預(yù)訓(xùn)練時間延長。但研究人員將這部分歸因于數(shù)據(jù)中的噪聲。

“在本文中，我們挑戰(zhàn)了神經(jīng)語言預(yù)訓(xùn)練模型中普遍存在的假設(shè)（就是前面說的「混合領(lǐng)域」預(yù)訓(xùn)練），并證明了從「無」開始對特定領(lǐng)域進(jìn)行預(yù)訓(xùn)練可以顯著優(yōu)于「混合領(lǐng)域」預(yù)訓(xùn)練?！笧樯镝t(yī)學(xué)NLP的應(yīng)用帶來了新的、最先進(jìn)的結(jié)果，」研究人員寫道，「我們未來會進(jìn)一步探索特定領(lǐng)域的預(yù)培訓(xùn)策略，將BLURB基準(zhǔn)擴(kuò)展到臨床或其他高價值領(lǐng)域?！?/p>

為了鼓勵生物醫(yī)學(xué)NLP的研究，研究人員創(chuàng)建了一個以BLURB基準(zhǔn)為特色的排行榜。他們還以開源的方式發(fā)布了預(yù)先訓(xùn)練過的特定任務(wù)模型。

研究已發(fā)布于預(yù)印論文網(wǎng)站arxiv上。

新聞中心

無需「域外」文本，微軟：NLP就應(yīng)該針對性預(yù)訓(xùn)練

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

無需「域外」文本，微軟：NLP就應(yīng)該針對性預(yù)訓(xùn)練

評論

相關(guān)推薦

技術(shù)專區(qū)

無需「域外」文本，微軟：NLP就應(yīng)該針對性預(yù)訓(xùn)練