微軟多語(yǔ)言預(yù)訓(xùn)練模型T-ULRv2登頂XTREME排行榜
編者按:為進(jìn)一步實(shí)現(xiàn)用 AI 賦能用戶體驗(yàn),微軟正在不斷拓展多語(yǔ)言模型的邊界。近日,由微軟圖靈團(tuán)隊(duì)與微軟亞洲研究院聯(lián)合探索的最新跨語(yǔ)言研究成果——多語(yǔ)言預(yù)訓(xùn)練模型 T-ULRv2,登頂 XTREME 排行榜,T-ULRv2 可以在相同向量空間表示和理解94種語(yǔ)言,提升所有語(yǔ)言的產(chǎn)品體驗(yàn)。本文編譯自微軟亞洲研究院副院長(zhǎng)周明和微軟副總裁、杰出工程師 Saurabh Tiwary 共同發(fā)表的微軟研究院博客文章 “Microsoft Turing Universal Language Representation model, T-ULRv2, tops XTREME leaderboard”。
近日,由微軟圖靈團(tuán)隊(duì)與微軟亞洲研究院聯(lián)合開發(fā)的圖靈多語(yǔ)言預(yù)訓(xùn)練模型 T-ULRv2 榮膺 XTREME 公共排行榜冠軍,該模型比之前最好的模型 VECO 有了3.5的平均分提升。在此次突破中,除了預(yù)訓(xùn)練的模型外,微軟的研究員們還提出了一種基于穩(wěn)定性訓(xùn)練的新型多語(yǔ)言微調(diào)技術(shù) StableTune。入圍本次排行榜的其他模型還包括:XLM-R、mBERT 和 XLM 等。此前的最好模型 FILTER 也是由微軟團(tuán)隊(duì)提交的。
多語(yǔ)言預(yù)訓(xùn)練模型T-ULRv2:支持94種語(yǔ)言
長(zhǎng)期以來(lái),微軟圖靈團(tuán)隊(duì)堅(jiān)信文本的語(yǔ)義表示是語(yǔ)言無(wú)關(guān)的。在2018年發(fā)表的論文 Towards Language Agnostic Universal Representations中(https://www.microsoft.com/en-us/research/publication/towards-language-agnostic-universal-representations/),微軟的研究員們提出了一種方法,以無(wú)監(jiān)督方式訓(xùn)練語(yǔ)言無(wú)關(guān)的語(yǔ)義表示。此方法可以讓經(jīng)過訓(xùn)練的模型在針對(duì)某一個(gè)語(yǔ)言加以微調(diào)后,立即應(yīng)用于另一個(gè)語(yǔ)言。以往針對(duì)每個(gè)語(yǔ)言進(jìn)行模型訓(xùn)練都要求具備該語(yǔ)言的標(biāo)注數(shù)據(jù),而此方法有效地解決了這一難題。無(wú)監(jiān)督的預(yù)訓(xùn)練語(yǔ)言模型已成為所有 NLP 模型的基礎(chǔ),基于 Transformer 的模型則是所有此類創(chuàng)新的核心。
作為微軟 AI at Scale(AI 規(guī)模化)研發(fā)的重要組成部分之一,圖靈系列的 NLP 模型一直在為微軟產(chǎn)品的下一代 AI 體驗(yàn)提供原動(dòng)力。T-ULRv2 是跨語(yǔ)言研究的最新成果,它融合了微軟亞洲研究院近期在 InfoXLM 論文(點(diǎn)擊閱讀原文,了解論文詳情)中的創(chuàng)新,其所開發(fā)的多語(yǔ)言預(yù)訓(xùn)練模型可以用于94種語(yǔ)言的文本的自然語(yǔ)言理解任務(wù)。通過 T-ULR 可以將微軟必應(yīng)的智能問題解答服務(wù)擴(kuò)展到所有受支持的語(yǔ)言和地區(qū)。而且這個(gè)模型還被用于將 Word 語(yǔ)義搜索功能擴(kuò)展到英語(yǔ)之外的語(yǔ)言,并且實(shí)現(xiàn)對(duì)微軟 Outlook 和微軟 Teams 中“建議答復(fù)”功能地普遍支持。這些功能的體驗(yàn)將會(huì)很快與用戶見面。
由 T-ULR 驅(qū)動(dòng)的西班牙文及阿拉伯文版微軟必應(yīng)智能問題解答示例
由 T-ULR 驅(qū)動(dòng)的法文版微軟 Word 語(yǔ)義搜索示例
這些真實(shí)的產(chǎn)品場(chǎng)景對(duì)算法質(zhì)量的要求極高,因此也為研究員們的 AI 模型提供了理想的測(cè)試平臺(tái)。根據(jù)結(jié)果顯示,T-ULR 在多語(yǔ)言 NLP 任務(wù)中的準(zhǔn)確率和性能都達(dá)到了非??捎^的效果。
XTREME基準(zhǔn)數(shù)據(jù)集
多語(yǔ)言編碼器的跨語(yǔ)言遷移能力評(píng)估 XTREME 基準(zhǔn)涵蓋了橫跨12個(gè)語(yǔ)系的40種語(yǔ)言,其中包含的9項(xiàng)任務(wù)都需要對(duì)不同層級(jí)的語(yǔ)法或語(yǔ)義進(jìn)行推理。XTREME 中的語(yǔ)言選擇旨在最大程度地提高語(yǔ)言多樣性、覆蓋現(xiàn)有的任務(wù)范圍,并考慮到訓(xùn)練數(shù)據(jù)的可用性。
XTREME 中包含的任務(wù)涵蓋了包括語(yǔ)句文本分類、結(jié)構(gòu)化預(yù)測(cè)、語(yǔ)句檢索和跨語(yǔ)言問答等自然語(yǔ)言處理任務(wù)。因此,為了成功完成 XTREME 基準(zhǔn)測(cè)試,模型必須學(xué)會(huì)可以跨語(yǔ)言遷移的表示。
有關(guān)基準(zhǔn)測(cè)試和任務(wù)的完整說(shuō)明,請(qǐng)參見《XTREME:A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》(https://arxiv.org/abs/2003.11080) 。
T-ULRv2預(yù)訓(xùn)練的“鐵人三項(xiàng)”:MMLM、TLM和XLCo
T-ULRv2 采用的是24層的 Transformer 架構(gòu),參數(shù)總量多達(dá)5.5億個(gè)。T-ULRv2 預(yù)訓(xùn)練要完成三項(xiàng)不同的任務(wù):多語(yǔ)言掩碼語(yǔ)言模型(MMLM)、翻譯語(yǔ)言模型(TLM)和微軟研究團(tuán)隊(duì)提出的跨語(yǔ)言對(duì)比學(xué)習(xí)(XLCo)。MMLM 任務(wù)(也稱為完形填空任務(wù))的目標(biāo)是根據(jù)輸入的不同語(yǔ)言信息預(yù)測(cè)出被遮蔽的字符。T-ULRv2 使用了來(lái)自網(wǎng)絡(luò)的多語(yǔ)言數(shù)據(jù)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)由94種語(yǔ)言組成,用于 MMLM 任務(wù)訓(xùn)練。
與 MMLM 相似,TLM 任務(wù)也是預(yù)測(cè)被遮蔽的字符,但該預(yù)測(cè)是針對(duì)拼接在一起的的平行句對(duì)。例如,給定一對(duì)英語(yǔ)和法語(yǔ)的平行句子,模型可以通過觀察被遮蔽英語(yǔ)字符周邊的英語(yǔ)字符或者它的法語(yǔ)翻譯版來(lái)預(yù)測(cè)這個(gè)被遮蔽的英語(yǔ)字符。它能夠幫助模型“對(duì)齊”不同語(yǔ)言的表示。
遮蔽語(yǔ)言建模(MLM)的跨語(yǔ)言預(yù)訓(xùn)練以及 TLM 任務(wù)(來(lái)源:XLM)
XLCo 任務(wù)則可以使用平行訓(xùn)練數(shù)據(jù),其目的是讓平行句子表示之間的互信息最大化。MMLM 和 TLM 的目標(biāo)是使字符-序列互信息最大化,而 XLCo 的目標(biāo)是序列級(jí)別的跨語(yǔ)言互信息最大化。對(duì)于 TLM 和 XLCo 任務(wù),T-ULRv2 會(huì)用到含有14個(gè)語(yǔ)言對(duì)的平行數(shù)據(jù)。XLCo 的損失函數(shù)如下:
隨后,它將計(jì)入 MMLM 和 TLM 的損失,得出跨語(yǔ)言預(yù)訓(xùn)練的總體損失:
有關(guān) T-ULRv2 的更多信息,請(qǐng)參見論文《InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training》(https://arxiv.org/abs/2007.07834) 。
構(gòu)建定制化應(yīng)用:T-ULRv2將發(fā)揮重要作用
在微軟 Ignite 2020 大會(huì)上,微軟宣布圖靈模型將作為私人預(yù)覽的一部分,用于構(gòu)建定制化應(yīng)用,而 T-ULRv2 也將成為該計(jì)劃的一部分。目前,研究團(tuán)隊(duì)正在與微軟 Azure 認(rèn)知服務(wù)部門緊密合作,為當(dāng)前及未來(lái)帶有圖靈模型的語(yǔ)言服務(wù)提供支持。微軟 Azure 認(rèn)知服務(wù)的現(xiàn)有客戶將通過 API 自動(dòng)享受這些升級(jí)服務(wù)。
AI體驗(yàn)普及化:以改善所有語(yǔ)言的產(chǎn)品體驗(yàn)為先
微軟認(rèn)為,全球化發(fā)展不僅僅是個(gè)研究課題,也是一項(xiàng)必須直面的挑戰(zhàn)。目前 Windows 在全世界范圍內(nèi)被使用,微軟 Office 和微軟必應(yīng)也已在200個(gè)地區(qū)使用,且提供了超過100個(gè)語(yǔ)言版本。微軟的客戶遍及全球每個(gè)角落,他們都在以各自的母語(yǔ)使用著微軟的產(chǎn)品。當(dāng)下,微軟的研究員們正在積極地拓展多語(yǔ)言模型的邊界,像類似于 T-ULRv2 這樣無(wú)語(yǔ)言差異的表示便是拓展之路上的又一次突破。它將可以提升所有語(yǔ)言的產(chǎn)品體驗(yàn),賦能所有用戶,真正實(shí)現(xiàn) AI 體驗(yàn)的普及化。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。