比 OpenAI 更好!!谷歌發(fā)布 20 億參數(shù)通用語(yǔ)音模型——USM
去年11月,谷歌曾宣布“1000 種語(yǔ)言計(jì)劃”,通過(guò)建立一個(gè)機(jī)器學(xué)習(xí)模型,從而支持世界上使用人數(shù)最多的 1000 種語(yǔ)言。
近日,谷歌正式發(fā)布 20 億參數(shù)通用語(yǔ)音模型——USM,可支持 100 多種語(yǔ)言自動(dòng)識(shí)別內(nèi)容檢測(cè)。谷歌將其描述為“最先進(jìn)的通用語(yǔ)音模型”,擁有 20 億個(gè)參數(shù),經(jīng)過(guò)了 1200 萬(wàn)小時(shí)的語(yǔ)音、280 億個(gè)句子和 300 多個(gè)語(yǔ)種數(shù)據(jù)集的預(yù)訓(xùn)練。
目前該模型在 Youtube 的字幕生成中已展現(xiàn)出來(lái),可自動(dòng)翻譯和檢測(cè),如英語(yǔ)、普通話(huà),甚至是阿塞拜疆語(yǔ)、阿薩姆語(yǔ)等小眾語(yǔ)言。
谷歌表示:“與 OpenAI 的大型通用語(yǔ)音模型 Whisper 相比,USM 的數(shù)據(jù)訓(xùn)練時(shí)長(zhǎng)更短,錯(cuò)誤率更低。”
支持 100 多種語(yǔ)言,將面臨兩大挑戰(zhàn)
隨著微軟和谷歌就 AI 聊天機(jī)器人展開(kāi)討論后,我們逐漸清楚,這并不是機(jī)器學(xué)習(xí)和大語(yǔ)言模型的唯一用途。
據(jù)傳言,谷歌計(jì)劃在今年的年度 I/O 大會(huì)上展示 20 多款由 AI 驅(qū)動(dòng)的產(chǎn)品。為了實(shí)現(xiàn)“1000種語(yǔ)言計(jì)劃”,谷歌表示他們目前需要解決自動(dòng)語(yǔ)音識(shí)別(ASR)中的兩大挑戰(zhàn)。
一是傳統(tǒng)的學(xué)習(xí)方法的缺乏可擴(kuò)展性。將語(yǔ)音技術(shù)擴(kuò)展到多語(yǔ)種的一個(gè)基本挑戰(zhàn)便是需要足夠的數(shù)據(jù)來(lái)訓(xùn)練高質(zhì)量的模型,使用傳統(tǒng)方法時(shí),需要手動(dòng)將音頻數(shù)據(jù)進(jìn)行標(biāo)記,既耗時(shí)、價(jià)格又高。而對(duì)于那些小眾冷門(mén)的語(yǔ)種,更難找到預(yù)先存在的來(lái)源收集。
二是在擴(kuò)大語(yǔ)言覆蓋范圍和提高模型質(zhì)量的同時(shí),模型必須以高效的計(jì)算方法來(lái)改進(jìn)。這就要求學(xué)習(xí)算法更加靈活、高效、可推廣。這些算法需要使用來(lái)源廣泛的數(shù)據(jù),并在不用重復(fù)訓(xùn)練的情況下更新模型,再推廣到新的語(yǔ)言中。
三個(gè)步驟降低錯(cuò)誤率
據(jù)論文介紹,USM 使用的是標(biāo)準(zhǔn)的編碼器-****架構(gòu),其中****是 CTC、RNN-T 或 LAS。編碼器則使用的是 Conformer 或卷積增強(qiáng) transformer。Conformer的關(guān)鍵組件是 Conformer 塊,它由注意力模塊、前饋模塊和卷積模塊組成。通過(guò)將語(yǔ)音信號(hào)的 log-mel 聲譜圖作為輸入,進(jìn)行卷積下采樣,然后使用一系列的 Conformer 塊和投影層得到最終的嵌入。
訓(xùn)練共分為三個(gè)步驟:
第一步,是使用 BEST-RQ 來(lái)對(duì)涵蓋數(shù)百種語(yǔ)種的語(yǔ)音音頻進(jìn)行自我監(jiān)督學(xué)習(xí)。
第二步,需要使用多目標(biāo)監(jiān)督預(yù)訓(xùn)練來(lái)整合來(lái)自于其他文本數(shù)據(jù)的信息。該模型引入了一個(gè)額外的編碼器模塊來(lái)輸入文本,并引入額外層來(lái)組合語(yǔ)音編碼器和文本編碼器的輸出,并在未標(biāo)記語(yǔ)音、標(biāo)記語(yǔ)音和文本數(shù)據(jù)上聯(lián)合訓(xùn)練模型。
最后一步,需要 USM 對(duì)下游任務(wù)進(jìn)行微調(diào),包括 ASR(自動(dòng)語(yǔ)音識(shí)別)和 AST(自動(dòng)語(yǔ)音翻譯)。
多項(xiàng)結(jié)果驗(yàn)證
YouTube Captions 上的多語(yǔ)言表現(xiàn)
谷歌通過(guò)預(yù)訓(xùn)練集成了 300 多種語(yǔ)言,并通過(guò)對(duì) YouTube Captions 的多語(yǔ)言語(yǔ)音數(shù)據(jù)進(jìn)行微調(diào),證明了預(yù)先訓(xùn)練的編碼器的有效性。
受監(jiān)督的 YouTube 數(shù)據(jù)包括 73 種語(yǔ)言,平均每種語(yǔ)言的數(shù)據(jù)不到 3000 小時(shí)。盡管監(jiān)督數(shù)據(jù)有限,但 USM 在 73 種語(yǔ)言中實(shí)現(xiàn)了小于 30% 的單詞容錯(cuò)率(WER)。與當(dāng)前內(nèi)部最先進(jìn)的模型相比,還要低 6%。與最近發(fā)布的大型模型 Whisper (large-v2)相比,USM 在 18 種語(yǔ)言中的錯(cuò)誤率只有32.7%,同樣低于 Whisper。
對(duì)下游 ASR 任務(wù)的可推廣性
在公開(kāi)可用的數(shù)據(jù)集上,USM 在 CORAAL (非裔美國(guó)人方言英語(yǔ))、SpeechStew (en-US)和 FLEURS(102種語(yǔ)言)的數(shù)據(jù)集上的 WER 要比 Whisper 更低。不管是否接受過(guò)域內(nèi)數(shù)據(jù)訓(xùn)練,USM 的 WER 都更低。
自動(dòng)語(yǔ)音翻譯(AST)
對(duì)于語(yǔ)音翻譯,谷歌在 CoVoST 數(shù)據(jù)集上對(duì) USM 進(jìn)行微調(diào)。通過(guò)有限的監(jiān)督數(shù)據(jù)達(dá)到了最佳性能。為了評(píng)估模型性能的廣度,谷歌根據(jù)資源可用性將 CoVoST 數(shù)據(jù)集中的語(yǔ)言劃分為高、中、低三種,并計(jì)算每個(gè)部分的 BLEU 得分(越高越好)。
如下圖所示,USM 在所有細(xì)分領(lǐng)域的表現(xiàn)都優(yōu)于 Whisper。
團(tuán)隊(duì)表示,谷歌的使命是整合全球信息并使人人皆可訪(fǎng)問(wèn)。而 USM 的開(kāi)發(fā)便是實(shí)現(xiàn)這一使命的關(guān)鍵步驟。基于 USM 基礎(chǔ)模型框架和訓(xùn)練 pipeline,未來(lái)谷歌可以將語(yǔ)音建模擴(kuò)展至 1000 種語(yǔ)言。
結(jié)語(yǔ)
目前,USM 支持 100 多種語(yǔ)言。團(tuán)隊(duì)表示,谷歌的使命是整合全球信息并使人人皆可訪(fǎng)問(wèn)。
USM 的開(kāi)發(fā)便是實(shí)現(xiàn)這一使命的關(guān)鍵步驟。
相信不久,谷歌可以將語(yǔ)音建模擴(kuò)展至 1000 種語(yǔ)言。
參考鏈接:
https://analyticsindiamag.com/google-usm-shatters-language-barriers-with-multilingual-speech-recognition-model/
https://arxiv.org/abs/2303.01037
https://www.theverge.com/2023/3/6/23627788/google-1000-language-ai-universal-speech-model
https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。