NaturalSpeech模型合成語音在CMOS測試中首次達(dá)到真人語音水平
文本到語音合成(Text to Speech,TTS)是一項根據(jù)文本生成可懂且自然的語音的計算機(jī)技術(shù) 。近年來,隨著深度學(xué)習(xí)的發(fā)展,TTS 在學(xué)術(shù)界和工業(yè)界取得了快速突破并且被廣泛應(yīng)用。在 TTS 的研究和產(chǎn)品上,微軟一直有著深厚的積累。
在研究方面,微軟曾創(chuàng)新提出了多個 TTS 模型,包括基于 Transformer 的語音合成(TransformerTTS)、快速語音合成(FastSpeech 1/2、LightSpeech)、低資源語音合成(LRSpeech)、定制化語音合成(AdaSpeech 1/2/3/4)、歌聲合成(HiFiSinger)、立體聲合成(BinauralGrad)、聲碼器(HiFiNet、PriorGrad)、文本分析、說話人臉合成等,而且推出了 TTS 領(lǐng)域最詳盡的文獻(xiàn)綜述。同時,微軟亞洲研究院還在多個學(xué)術(shù)會議上(如 ISCSLP 2021、IJCAI 2021、ICASSP 2022)舉辦了語音合成教程,并在 Blizzard 2021 語音合成比賽中推出了 DelightfulTTS,獲得了最好成績。此外,微軟還推出了開源語音研究項目 NeuralSpeech 等。
在產(chǎn)品方面,微軟在 Azure 認(rèn)知服務(wù)中提供了強(qiáng)大的語音合成功能,開發(fā)人員可以借助其中的 Neural TTS 功能將文本轉(zhuǎn)換為逼真的語音,用于眾多場景之中,例如語音助手、有聲讀物、游戲配音、輔助工具等等。利用 Azure Neural TTS,用戶既可以直接選擇預(yù)置的音色,也可以自己錄制上傳聲音樣本自定義音色。目前,Azure Neural TTS 支持超過120種語言,包括多語言變體或方言,同時該功能也已整合到了多個微軟產(chǎn)品中,并且被業(yè)界諸多合作伙伴所采用。為了持續(xù)推動技術(shù)創(chuàng)新,提高服務(wù)質(zhì)量,微軟 Azure 語音團(tuán)隊與微軟亞洲研究院密切合作,讓 TTS 在不同場景下聽起來更多樣、更悅耳,也更自然。
近日,微軟亞洲研究院和微軟 Azure 語音團(tuán)隊研發(fā)出了全新的端到端 TTS 模型 NaturalSpeech,該模型在廣泛使用的 TTS 數(shù)據(jù)集(LJSpeech)上使用 CMOS (Comparative Mean Opinion Score) 作為指標(biāo),首次達(dá)到了與自然語音無明顯差異的優(yōu)異成績。這一創(chuàng)新性的科研成果未來也將集成到微軟 Azure TTS 服務(wù)中供更多用戶使用。
四大創(chuàng)新設(shè)計讓NaturalSpeech超越傳統(tǒng)TTS系統(tǒng)
NaturalSpeech 是一個完全端到端的文本到語音波形生成系統(tǒng)(見圖1),能夠彌合合成語音與真人聲音之間的質(zhì)量差距。具體而言,該系統(tǒng)利用變分自編碼器(Variational Auto-Encoder, VAE),將高維語音 (x) 壓縮成連續(xù)的幀級表達(dá) z(記作后驗 q(z|x)),用于對語音波形 x(記作 p(x|z))的重構(gòu)。相應(yīng)的先驗(記作 p(z|y))則從文本序列 y 中獲取。
圖1:NaturalSpeech 系統(tǒng)概覽
考慮到來自語音的后驗比來自文本的先驗更加復(fù)雜,研究員們設(shè)計了幾個模塊(見圖2),盡可能近似地對后驗和先驗進(jìn)行匹配,從而通過y→p(z|y)→p(x|z)→x實現(xiàn)文本到語音的合成。
在音素編碼器上利用大規(guī)模音素預(yù)訓(xùn)練(phoneme pre-training),從音素序列中提取更好的表達(dá)。
利用由時長預(yù)測器和上采樣層組成的完全可微分的時長模塊(durator),來改進(jìn)音素的時長建模。
基于流模型(flow)的雙向先驗/后驗?zāi)K(bidirectional prior/posterior),可以進(jìn)一步增強(qiáng)先驗 p(z|y) 以及降低后驗 q(z|x) 的復(fù)雜性。
基于記憶的變分自編碼器(Memory VAE),可降低重建波形所需的后驗復(fù)雜性。
圖2:NaturalSpeech 關(guān)鍵模塊
據(jù)微軟亞洲研究院主管研究員譚旭介紹,與之前的 TTS 系統(tǒng)相比,NaturalSpeech 有以下幾大優(yōu)勢:
1)減少訓(xùn)練和推理的不匹配。先前的級聯(lián)聲學(xué)模型/聲碼器系統(tǒng)和顯式時長預(yù)測都受到了訓(xùn)練推理不匹配的影響。其原因在于聲碼器使用了真實的梅爾譜以及梅爾譜編碼器使用了真實的時長,而推理中使用了相應(yīng)的預(yù)測值。NaturalSpeech 完全端到端文本到波形的生成以及可微時長模塊,則能夠避免訓(xùn)練推理的不匹配。
2)緩解了一對多的映射問題。一個文本序列可以對應(yīng)多個不同的語音表達(dá),例如音高、持續(xù)時間、速度、停頓、韻律等方面的變化。以往的研究僅額外預(yù)測音高/時長,并不能很好地處理一對多的映射問題。NaturalSpeech 中基于記憶的 VAE 和雙向先驗/后驗則能降低后驗的復(fù)雜性并增強(qiáng)先驗,有助于緩解一對多的映射問題。
3)提高表達(dá)能力。此前的 TTS 模型往往不足以從音素序列中提取良好的表達(dá)以及學(xué)習(xí)語音中復(fù)雜的數(shù)據(jù)分布。NaturalSpeech 通過大規(guī)模音素預(yù)訓(xùn)練、帶有記憶機(jī)制的 VAE、強(qiáng)大的生成模型(如Flow/VAE/GAN)可以學(xué)習(xí)更好的文本表達(dá)和語音數(shù)據(jù)分布。
權(quán)威評測結(jié)果顯示:NaturalSpeech合成語音與真人聲音不相伯仲
此前的工作通常采用“平均意見分”(Mean Opinion Score, MOS)來衡量 TTS 質(zhì)量。在 MOS 評測中,參與者通過聽取真人說話錄音和 TTS 的合成語音,分別對兩種聲音的特征進(jìn)行五分制評分,包括聲音質(zhì)量、發(fā)音、語速和清晰度等。但是 MOS 對于區(qū)分聲音質(zhì)量的差異不是非常敏感,因為參與者只是對兩個系統(tǒng)的每條句子單獨打分,沒有兩兩互相比較。而 CMOS(Comparative MOS)在評測過程中可以對兩個系統(tǒng)的句子兩兩對比并排打分,并且使用七分制來衡量差異,所以對質(zhì)量差異更加敏感。
因此,在評測 NaturalSpeech 系統(tǒng)和真實錄音的質(zhì)量時,研究員們同時進(jìn)行了 MOS 和 CMOS 兩種測試(結(jié)果如表1和2所示)。在廣泛采用的 LJSpeech 數(shù)據(jù)集上的實驗評估表明,NaturalSpeech 在語句級別與真人錄音的對比上實現(xiàn)了-0.01 CMOS,在 Wilcoxon 符號秩檢驗中實現(xiàn)了 p>>0.05。這表明在這一數(shù)據(jù)集上,NaturalSpeech 首次與真人錄音無統(tǒng)計學(xué)意義上的顯著差異。這個成績遠(yuǎn)高于此前在 LJSpeech 數(shù)據(jù)集上測試的其它 TTS 系統(tǒng)。
表1:NaturalSpeech 和真人錄音之間的 MOS 比較,使用 Wilcoxon 秩和檢驗(Wilcoxon rank sum)來度量 MOS 評估中的 p 值。
表2:NaturalSpeech 和真人錄音之間的 CMOS 比較,使用 Wilcoxon 符號秩檢驗(Wilcoxon signed rank test)來度量 CMOS 評估中的 p 值。
下面分別展示 NaturalSpeech 合成的語音和對應(yīng)的真人錄音:
內(nèi)容1:Maltby and Co. would issue warrants on them deliverable to the importer, and the goods were then passed to be stored in neighboring warehouses.
NaturalSpeech合成語音1音頻:00:0000:08真人錄音1音頻:00:0000:08
內(nèi)容2:who had borne the Queen's commission, first as cornet, and then lieutenant, in the 10th Hussars.
NaturalSpeech合成語音2音頻:00:0000:06真人錄音2音頻:00:0000:07
了解更多技術(shù)細(xì)節(jié),請參閱 NaturalSpeech 論文和 GitHub 主頁:
NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
https://arxiv.org/pdf/2205.04421.pdf
NaturalSpeech GitHub 主頁:
https://speechresearch.github.io/naturalspeech/
TTS發(fā)展道阻且長,需要業(yè)界共同打造負(fù)責(zé)任的AI
在微軟 Azure 認(rèn)知服務(wù)語音首席研發(fā)總監(jiān)趙晟看來,NaturalSpeech 系統(tǒng)首次達(dá)到了與真人錄音沒有顯著差異的效果,是 TTS 研究上的一個新的里程碑。從長遠(yuǎn)角度來講,雖然借助新模型能夠?qū)崿F(xiàn)更高質(zhì)量的合成語音,但這并不意味著徹底解決了 TTS 所面臨的問題。目前,TTS 仍然存在很多具有挑戰(zhàn)性的場景,如充滿情感的語音、長篇朗誦、即興表演的語音等,這些都需要更先進(jìn)的建模技術(shù)來模擬真人語音的表現(xiàn)力和多變性。
隨著合成語音質(zhì)量的不斷提升,確保 TTS 能被人們信賴是一個需要攻堅的問題。微軟主動采取了一系列措施來預(yù)判和降低包括 TTS 在內(nèi)的人工智能技術(shù)所帶來的風(fēng)險。微軟致力于依照以人為本的倫理原則推進(jìn)人工智能的發(fā)展,早在2018年就發(fā)布了“公平、包容、可靠與安全、透明、隱私與保障、負(fù)責(zé)”6個負(fù)責(zé)任的人工智能原則(Responsible AI Principles),隨后又發(fā)布負(fù)責(zé)任的人工智能標(biāo)準(zhǔn)(Responsible AI Standards)將各項原則實施落地,并設(shè)置了治理架構(gòu)確保各團(tuán)隊把各項原則和標(biāo)準(zhǔn)落實到日常工作中。我們正在與全球的研究人員和學(xué)術(shù)機(jī)構(gòu)合作,繼續(xù)推進(jìn)負(fù)責(zé)任的人工智能的實踐和技術(shù)。
Azure AI Neural TTS的更多功能和聲音等你來探索
Azure AI Neural TTS 目前共提供340多種聲音,支持120多個語種和方言。此外,Neural TTS 還能幫助企業(yè)以多種語言和風(fēng)格,打造專屬的品牌聲音?,F(xiàn)在,用戶可以通過 Neural TTS 試用版來探索更多功能和特色聲音。
相關(guān)鏈接:
微軟 Azure 認(rèn)知服務(wù) TTS
https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
微軟亞洲研究院語音相關(guān)研究
https://speechresearch.github.io/
微軟開源語音研究項目 NeuralSpeech
https://github.com/microsoft/neuralspeech
NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
https://arxiv.org/abs/2205.04421
- Responsible AI principles from Microsofthttps://www.microsoft.com/en-us/ai/responsible-ai
- Our approach to responsible AI at Microsofthttps://www.microsoft.com/en-us/ai/our-approach
- The building blocks of Microsoft’s responsible AI programhttps://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。