微軟多語言預(yù)訓(xùn)練模型T-ULRv2登頂XTREME排行榜
編者按:為進一步實現(xiàn)用 AI 賦能用戶體驗,微軟正在不斷拓展多語言模型的邊界。近日,由微軟圖靈團隊與微軟亞洲研究院聯(lián)合探索的最新跨語言研究成果——多語言預(yù)訓(xùn)練模型 T-ULRv2,登頂 XTREME 排行榜,T-ULRv2 可以在相同向量空間表示和理解94種語言,提升所有語言的產(chǎn)品體驗。本文編譯自微軟亞洲研究院副院長周明和微軟副總裁、杰出工程師 Saurabh Tiwary 共同發(fā)表的微軟研究院博客文章 “Microsoft Turing Universal Language Representation model, T-ULRv2, tops XTREME leaderboard”。
近日,由微軟圖靈團隊與微軟亞洲研究院聯(lián)合開發(fā)的圖靈多語言預(yù)訓(xùn)練模型 T-ULRv2 榮膺 XTREME 公共排行榜冠軍,該模型比之前最好的模型 VECO 有了3.5的平均分提升。在此次突破中,除了預(yù)訓(xùn)練的模型外,微軟的研究員們還提出了一種基于穩(wěn)定性訓(xùn)練的新型多語言微調(diào)技術(shù) StableTune。入圍本次排行榜的其他模型還包括:XLM-R、mBERT 和 XLM 等。此前的最好模型 FILTER 也是由微軟團隊提交的。
多語言預(yù)訓(xùn)練模型T-ULRv2:支持94種語言
長期以來,微軟圖靈團隊堅信文本的語義表示是語言無關(guān)的。在2018年發(fā)表的論文 Towards Language Agnostic Universal Representations中(https://www.microsoft.com/en-us/research/publication/towards-language-agnostic-universal-representations/),微軟的研究員們提出了一種方法,以無監(jiān)督方式訓(xùn)練語言無關(guān)的語義表示。此方法可以讓經(jīng)過訓(xùn)練的模型在針對某一個語言加以微調(diào)后,立即應(yīng)用于另一個語言。以往針對每個語言進行模型訓(xùn)練都要求具備該語言的標注數(shù)據(jù),而此方法有效地解決了這一難題。無監(jiān)督的預(yù)訓(xùn)練語言模型已成為所有 NLP 模型的基礎(chǔ),基于 Transformer 的模型則是所有此類創(chuàng)新的核心。
作為微軟 AI at Scale(AI 規(guī)?;┭邪l(fā)的重要組成部分之一,圖靈系列的 NLP 模型一直在為微軟產(chǎn)品的下一代 AI 體驗提供原動力。T-ULRv2 是跨語言研究的最新成果,它融合了微軟亞洲研究院近期在 InfoXLM 論文(點擊閱讀原文,了解論文詳情)中的創(chuàng)新,其所開發(fā)的多語言預(yù)訓(xùn)練模型可以用于94種語言的文本的自然語言理解任務(wù)。通過 T-ULR 可以將微軟必應(yīng)的智能問題解答服務(wù)擴展到所有受支持的語言和地區(qū)。而且這個模型還被用于將 Word 語義搜索功能擴展到英語之外的語言,并且實現(xiàn)對微軟 Outlook 和微軟 Teams 中“建議答復(fù)”功能地普遍支持。這些功能的體驗將會很快與用戶見面。
由 T-ULR 驅(qū)動的西班牙文及阿拉伯文版微軟必應(yīng)智能問題解答示例
由 T-ULR 驅(qū)動的法文版微軟 Word 語義搜索示例
這些真實的產(chǎn)品場景對算法質(zhì)量的要求極高,因此也為研究員們的 AI 模型提供了理想的測試平臺。根據(jù)結(jié)果顯示,T-ULR 在多語言 NLP 任務(wù)中的準確率和性能都達到了非常可觀的效果。
XTREME基準數(shù)據(jù)集
多語言編碼器的跨語言遷移能力評估 XTREME 基準涵蓋了橫跨12個語系的40種語言,其中包含的9項任務(wù)都需要對不同層級的語法或語義進行推理。XTREME 中的語言選擇旨在最大程度地提高語言多樣性、覆蓋現(xiàn)有的任務(wù)范圍,并考慮到訓(xùn)練數(shù)據(jù)的可用性。
XTREME 中包含的任務(wù)涵蓋了包括語句文本分類、結(jié)構(gòu)化預(yù)測、語句檢索和跨語言問答等自然語言處理任務(wù)。因此,為了成功完成 XTREME 基準測試,模型必須學(xué)會可以跨語言遷移的表示。
有關(guān)基準測試和任務(wù)的完整說明,請參見《XTREME:A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》(https://arxiv.org/abs/2003.11080) 。
T-ULRv2預(yù)訓(xùn)練的“鐵人三項”:MMLM、TLM和XLCo
T-ULRv2 采用的是24層的 Transformer 架構(gòu),參數(shù)總量多達5.5億個。T-ULRv2 預(yù)訓(xùn)練要完成三項不同的任務(wù):多語言掩碼語言模型(MMLM)、翻譯語言模型(TLM)和微軟研究團隊提出的跨語言對比學(xué)習(xí)(XLCo)。MMLM 任務(wù)(也稱為完形填空任務(wù))的目標是根據(jù)輸入的不同語言信息預(yù)測出被遮蔽的字符。T-ULRv2 使用了來自網(wǎng)絡(luò)的多語言數(shù)據(jù)語料庫,該語料庫由94種語言組成,用于 MMLM 任務(wù)訓(xùn)練。
與 MMLM 相似,TLM 任務(wù)也是預(yù)測被遮蔽的字符,但該預(yù)測是針對拼接在一起的的平行句對。例如,給定一對英語和法語的平行句子,模型可以通過觀察被遮蔽英語字符周邊的英語字符或者它的法語翻譯版來預(yù)測這個被遮蔽的英語字符。它能夠幫助模型“對齊”不同語言的表示。
遮蔽語言建模(MLM)的跨語言預(yù)訓(xùn)練以及 TLM 任務(wù)(來源:XLM)
XLCo 任務(wù)則可以使用平行訓(xùn)練數(shù)據(jù),其目的是讓平行句子表示之間的互信息最大化。MMLM 和 TLM 的目標是使字符-序列互信息最大化,而 XLCo 的目標是序列級別的跨語言互信息最大化。對于 TLM 和 XLCo 任務(wù),T-ULRv2 會用到含有14個語言對的平行數(shù)據(jù)。XLCo 的損失函數(shù)如下:
隨后,它將計入 MMLM 和 TLM 的損失,得出跨語言預(yù)訓(xùn)練的總體損失:
有關(guān) T-ULRv2 的更多信息,請參見論文《InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training》(https://arxiv.org/abs/2007.07834) 。
構(gòu)建定制化應(yīng)用:T-ULRv2將發(fā)揮重要作用
在微軟 Ignite 2020 大會上,微軟宣布圖靈模型將作為私人預(yù)覽的一部分,用于構(gòu)建定制化應(yīng)用,而 T-ULRv2 也將成為該計劃的一部分。目前,研究團隊正在與微軟 Azure 認知服務(wù)部門緊密合作,為當(dāng)前及未來帶有圖靈模型的語言服務(wù)提供支持。微軟 Azure 認知服務(wù)的現(xiàn)有客戶將通過 API 自動享受這些升級服務(wù)。
AI體驗普及化:以改善所有語言的產(chǎn)品體驗為先
微軟認為,全球化發(fā)展不僅僅是個研究課題,也是一項必須直面的挑戰(zhàn)。目前 Windows 在全世界范圍內(nèi)被使用,微軟 Office 和微軟必應(yīng)也已在200個地區(qū)使用,且提供了超過100個語言版本。微軟的客戶遍及全球每個角落,他們都在以各自的母語使用著微軟的產(chǎn)品。當(dāng)下,微軟的研究員們正在積極地拓展多語言模型的邊界,像類似于 T-ULRv2 這樣無語言差異的表示便是拓展之路上的又一次突破。它將可以提升所有語言的產(chǎn)品體驗,賦能所有用戶,真正實現(xiàn) AI 體驗的普及化。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。