人工智能助力科大訊飛語(yǔ)音轉(zhuǎn)寫技術(shù)新突破
近年來,隨著“人工智能”逐漸成為新時(shí)代科技發(fā)展的方向,整個(gè)語(yǔ)音行業(yè)也迅速成長(zhǎng)。其中,尤以聽寫技術(shù)發(fā)展最為迅速,目前已廣泛在語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音助手等產(chǎn)品中得到應(yīng)用并日臻成熟。
本文引用地址:http://2s4d.com/article/201602/286780.htm但語(yǔ)音技術(shù)并不因此止步,聽寫技術(shù)解決的是人機(jī)對(duì)話問題,更多適用于朗讀式風(fēng)格說話這類很工整的語(yǔ)音,專為識(shí)別而生。而現(xiàn)實(shí)的場(chǎng)景卻復(fù)雜得多——會(huì)議、采訪、演講、交談等自然場(chǎng)景下的語(yǔ)音第一目的并非為了轉(zhuǎn)寫,因此不僅在質(zhì)量上有先天缺陷,而且是不注重發(fā)音、語(yǔ)速、環(huán)境等影響因素的隨意性非工整語(yǔ)音,對(duì)機(jī)器的敏感度是極大的挑戰(zhàn)。這就需要在音頻的轉(zhuǎn)寫技術(shù)方面有所突破,就主流技術(shù)趨勢(shì)而言,解決會(huì)話風(fēng)格和錄音質(zhì)量?jī)蓚€(gè)問題就成為技術(shù)突破的核心要求。
國(guó)內(nèi)語(yǔ)音產(chǎn)業(yè)龍頭科大訊飛在語(yǔ)音領(lǐng)域深耕多年,而日前科大訊飛年度發(fā)布會(huì)上亮相的最新成果恰恰包括語(yǔ)音轉(zhuǎn)寫方面的技術(shù)突破,讓人喜出望外。
兩大技術(shù)雙劍合璧 突圍人人對(duì)話
解決人人對(duì)話轉(zhuǎn)寫問題的難點(diǎn)在于其場(chǎng)景的復(fù)雜性與影響因素的多樣性,不僅需要海量的人人交談數(shù)據(jù),更核心的是需要在海量數(shù)據(jù)基礎(chǔ)上進(jìn)行建模。為突破這一技術(shù)難點(diǎn),經(jīng)過潛心研究,訊飛獨(dú)家推出兩大技術(shù)——篇章級(jí)處理技術(shù)和口語(yǔ)風(fēng)格處理技術(shù)。
科大訊飛通過聲學(xué)模型建模技術(shù)和語(yǔ)言模型建模技術(shù)的創(chuàng)新提高了通用場(chǎng)景的識(shí)別率,在此基礎(chǔ)上利用篇章級(jí)處理技術(shù)(包括AM自適應(yīng)、LM自適應(yīng)、領(lǐng)域LM、語(yǔ)義LM等),使雜亂無章的數(shù)據(jù)變得有跡可循。值得一提的是,在提高通用識(shí)別率方面,訊飛掌握了近一兩年才成功應(yīng)用于語(yǔ)音識(shí)別中的最新的雙向RNN技術(shù)和當(dāng)下比較火的CTC建模技術(shù),使得識(shí)別率比DNN技術(shù)和雙向RNN技術(shù)分別相對(duì)提升了25%和10%。目前,說話人自適應(yīng)技術(shù)已申請(qǐng)專利。
針對(duì)人人對(duì)話場(chǎng)景中出現(xiàn)的口語(yǔ)詞、猶豫詞、重復(fù)等情況,通過口語(yǔ)風(fēng)格處理技術(shù),讓機(jī)器自動(dòng)學(xué)習(xí)重復(fù)、會(huì)跳弧,解決口語(yǔ)場(chǎng)景下的識(shí)別問題。
混響技術(shù)新突破 成就高品質(zhì)識(shí)別
混響降噪一直是語(yǔ)音轉(zhuǎn)寫的一大難點(diǎn)。對(duì)于為了聽感而錄制的有損失的語(yǔ)音,訊飛綜合利用DNN加混響技術(shù)和DNN去混響技術(shù),解決遠(yuǎn)場(chǎng)錄音的混響問題。所謂加混響,即在近場(chǎng)的清晰數(shù)據(jù)基礎(chǔ)上加上混響,仿造混響數(shù)據(jù),形成遠(yuǎn)場(chǎng)語(yǔ)音,再對(duì)機(jī)器進(jìn)行混合訓(xùn)練,使模型的魯棒性更好。降噪的方式類似。
而如何從源頭上解決混響和降噪似乎才是問題的關(guān)鍵,訊飛獨(dú)辟蹊徑,將技術(shù)創(chuàng)新與專為轉(zhuǎn)寫而設(shè)計(jì)的硬件設(shè)備結(jié)合來解決這一問題。在智能錄音設(shè)備上加上多麥克陣列,利用陣列解混響技術(shù)去混響。再與單麥克解混響技術(shù)結(jié)合,進(jìn)一步提高遠(yuǎn)場(chǎng)環(huán)境下的識(shí)別率。目前,運(yùn)用單麥克解混響技術(shù)識(shí)別率可達(dá)到90%以上。
文本摘要技術(shù)嶄露頭角
解決了人人對(duì)話場(chǎng)景的轉(zhuǎn)寫問題,人工智能大潮下,語(yǔ)音技術(shù)的下一步必然是繼續(xù)在更智能的方向朝前邁進(jìn)——文本摘要技術(shù)成為可預(yù)見的迫切需求。摘要本質(zhì)上是一種高層的語(yǔ)義理解,不僅國(guó)內(nèi)尚屬空白,國(guó)際范圍內(nèi)也鮮有成果。訊飛目前正在做的是先對(duì)文本進(jìn)行預(yù)處理,包括異常檢測(cè)、標(biāo)點(diǎn)預(yù)測(cè)、內(nèi)容順滑等,過濾掉識(shí)別錯(cuò)誤、重復(fù)詞、預(yù)期詞,再通過Encoder-Decoder框架解決自動(dòng)摘要問題,現(xiàn)已獲得專利,有望在明年投入使用。
技術(shù)的進(jìn)步終將落腳于功能和產(chǎn)品,從而服務(wù)人們的工作生活。目前,語(yǔ)音轉(zhuǎn)寫技術(shù)的最新發(fā)展成果已應(yīng)用于科大訊飛旗下的音頻轉(zhuǎn)文字服務(wù)平臺(tái)——訊飛聽見(www.iflyrec.com/)、手機(jī)APP錄音寶、訊飛聽見錄音筆等產(chǎn)品上,涵蓋了多種終端,成為人工智能發(fā)展的重要推力。同時(shí),隨著移動(dòng)互聯(lián)網(wǎng)、智能硬件浪潮的到來,科大訊飛整合了各技術(shù)領(lǐng)域多年的研究成果,構(gòu)建了全球首個(gè)智能人機(jī)交互平臺(tái)——“訊飛開放平臺(tái)”:將以語(yǔ)音交互為核心的人工智能技術(shù)開放給業(yè)界開發(fā)者。未來,通過科大訊飛的技術(shù)開放,將有更多類似“訊飛聽見”的人工智能落地化產(chǎn)品能夠快速實(shí)現(xiàn)。
評(píng)論